LM Studio × Qwen3-VL Vision推論─ローカルで写真を“自動タグ付け”する実装(HTML可視化付き)

LM Studio × Qwen3-VL Vision推論─ローカルで写真を“自動タグ付け”する実装(HTML可視化付き) HowTo

JSON を眺める作業から開放される。
Vision推論を “実務ツール” に変える。

■ はじめに

LM Studio で Vision 対応モデルを動かしたい──
そう思って検索しても「やってみた」「動かなかった」の感想ばかり。

Vision推論をローカルで実用する記事が、ほぼ存在しませんでした。

だから、作りました。

  • LM Studio + Qwen3-VL-4B(Vision対応)
  • Python スクリプトで画像をまとめて推論
  • 画像+結果テキスト+処理時間を HTML で可視化

JSON のままだと読みづらいので、
画像ビューア付きの HTML(report.html)を自動生成する ようにしました。

JSON のログを見るのではなく、画像カードで結果を“読む” ためのツールです。


■ 何ができるのか(成果物)

以下のような HTML が自動で生成されます。

画像 + 推論結果 + 速度(ms)がカードで並ぶ

vision-tagger/
├── vision-tagger.py       ← 実行するファイル
├── report_template.html
├── <report.html>          ← ★自動生成(画像ビューア付き)
├── input/                 ← 画像を入れるフォルダ
└── README.md

<report.html> 実際の表示例:

LM Studio × Qwen3-VL Vision推論─ローカルで写真を“自動タグ付け”する実装(HTML可視化付き)

※テストに使用した画像は、Fooocus にて生成。1192x896pxで概ね1MB以下のサイズです。


■ Vision推論が“実務で使える”理由

Qwen3-VL は以下のように出力します:

  • Objects: 透明な水晶製の女性の彫刻 / 光を反射している
  • Scene: 白い背景 / 女性像 / クリスタル

箇条書き・タグ形式で返すので、そのままメタデータや分類に使える
NSFW表示にも対応しています。

ここが重要です。

速いだけじゃない。出力が使える。

Gemma3 が「きれいに書く」のに対し、
Qwen3-VL は“仕事ができる”


■ セットアップ(3ステップ)

  1. LM Studio を起動
  2. Vision対応モデル(qwen/qwen3-vl-4b)をロード
    ※「目玉アイコン」があるモデルが Vision 対応
    ※ Vision 対応 の Gemma3 などでも動作しました
  3. このスクリプトを実行する
python vision-tagger.py

※ LM Studio が起動していないと接続できません。
※ モデル名はあなたの環境のものに合わせて下さい。


■ 出力される HTML の見方

表示意味
respond (ms)モデルが応答するまでの時間
prepare (ms)画像を読み込む時間
total (ms)1枚の画像にかかった総時間
NSFWコード内で制御可能
NSFW_KEYWORDS = [‘裸’,’裸体’,’ヌード’,’全裸’];

JSONを眺めていた頃には戻れません。
画像 × 推論 × ベンチマーク が 1画面で一望 できます。


■ 大きい画像の処理はどうなる?

Vision推論は、画像解像度に比例して「リニアに処理時間が増える」わけではない。

理由はシンプルで、

LM Studio が内部で画像を縮小してから推論している
(=巨大画像をそのままモデルに渡しているわけではない)

そのため、800万画素 → 1200万画素 → 2400万画素 と増えても、
応答時間は 緩やかに増える程度

実測値(Qwen3-VL / RTX3060 で検証):

画像サイズrespond(ms)total(ms)備考
1152 × 8961516-22251424-2306Fooocus 生成サンプル
4032 × 30241817-46842012-4771スマホ撮影

※ 数字は実測ログの例(画像によって前後する)


■ なぜ Qwen3-VL なのか?

結論:速いから

前回の記事(ベンチ比較)でも書いたが、Qwen3-VL-4B は
Gemma3-4B-it より 3〜5倍高速 だった。


■ 発展案(すぐ応用できる)

  • フォルダ自動仕分け
  • タグ付け + 画像データベース化
  • Photo / Assets 管理

Vision推論が 遊びから仕事に変わる瞬間


■ まとめ

  • LM Studio + Qwen3-VL は ローカルで Vision が動く
  • 画像タグ付け結果を HTMLで可視化できるツール を公開
  • JSONではなく “読めるUI” で結果を見る

Vision は“重いクラウド”じゃなくても動く。
ローカルでできる。高速で。


■ ダウンロード

ライセンス:MIT
ご使用前に、同梱の README.md をご確認ください。

vision-tagger.zip – 11.1KB

※ご使用は自己責任でお願いします