LM Studio × Qwen3-VL Vision推論─ローカルで写真を“自動タグ付け”する実装（HTML可視化付き）

JSON を眺める作業から開放される。
Vision推論を “実務ツール” に変える。

■ はじめに
■ 何ができるのか（成果物）
■ Vision推論が“実務で使える”理由
■ セットアップ（3ステップ）
■ 出力される HTML の見方
■ 大きい画像の処理はどうなる？
■ なぜ Qwen3-VL なのか？
■ 発展案（すぐ応用できる）
■ まとめ
■ ダウンロード

■ はじめに

LM Studio で Vision 対応モデルを動かしたい──
そう思って検索しても「やってみた」「動かなかった」の感想ばかり。

Vision推論をローカルで実用する記事が、ほぼ存在しませんでした。

だから、作りました。

LM Studio + Qwen3-VL-4B（Vision対応）
Python スクリプトで画像をまとめて推論
画像＋結果テキスト＋処理時間を HTML で可視化

JSON のままだと読みづらいので、
画像ビューア付きの HTML（report.html）を自動生成する ようにしました。

JSON のログを見るのではなく、画像カードで結果を“読む” ためのツールです。

■ 何ができるのか（成果物）

以下のような HTML が自動で生成されます。

画像 + 推論結果 + 速度（ms）がカードで並ぶ

vision-tagger/
├── vision-tagger.py       ← 実行するファイル
├── report_template.html
├── <report.html>          ← ★自動生成（画像ビューア付き）
├── input/                 ← 画像を入れるフォルダ
└── README.md

<report.html> 実際の表示例：

LM Studio × Qwen3-VL Vision推論─ローカルで写真を“自動タグ付け”する実装（HTML可視化付き）

※テストに使用した画像は、Fooocus にて生成。1192ｘ896pxで概ね1MB以下のサイズです。

■ Vision推論が“実務で使える”理由

Qwen3-VL は以下のように出力します：

Objects: 透明な水晶製の女性の彫刻 / 光を反射している
Scene: 白い背景 / 女性像 / クリスタル

箇条書き・タグ形式で返すので、そのままメタデータや分類に使える。
NSFW表示にも対応しています。

ここが重要です。

速いだけじゃない。出力が使える。

Gemma3 が「きれいに書く」のに対し、
Qwen3-VL は“仕事ができる”。

■ セットアップ（3ステップ）

LM Studio を起動
Vision対応モデル（qwen/qwen3-vl-4b）をロード
※「目玉アイコン」があるモデルが Vision 対応
※ Vision 対応の Gemma3 などでも動作しました
このスクリプトを実行する

python vision-tagger.py

※ LM Studio が起動していないと接続できません。
※ モデル名はあなたの環境のものに合わせて下さい。

■ 出力される HTML の見方

表示	意味
respond (ms)	モデルが応答するまでの時間
prepare (ms)	画像を読み込む時間
total (ms)	1枚の画像にかかった総時間
NSFW	コード内で制御可能 NSFW_KEYWORDS = [‘裸’,’裸体’,’ヌード’,’全裸’];