激速！Qwen 3-VL-4B ─ ローカルLLM4モデル横断で見えたコーディング能力の性格差

リグが同じでも、モデルの“性格”はまるで違う。
同一環境（RTX 3060／LM Studio／Q4_K_M）・同一課題（「PythonでJSON→CSV変換関数を書け」）で、Qwen 3-VL-4B／Hermes 4-14B／Gemma 3n-E4B／GPT-OSS-20Bを実測した。4Bから20Bまで混じる“厳密にはフェアでない”比較だが、コーディングに関するモデルごとの実務的性格は十分に立ち上がった。結論は明確だ。Qwenは“待機を消す速さ”でプロトタイピングを前に進め、GemmaとGPT-OSSは“過不足ない説明と堅牢性”で運用の安心を担保し、Hermesはその中庸に収まる。

計測前提（再現性メモ）
実測サマリ
4モデルの“性格”を一言で
なぜ“速さ”が効くのか
一方で“厚み”は運用の寿命
モデル別おすすめ使いどころ
速度と堅牢性の“二軸”で見る
まとめ
付録：再現の手順（要点のみ）

計測前提（再現性メモ）

環境：RTX 3060（12GB）／LM Studio／量子化 Q4_K_M
プロンプト：PythonでJSON→CSV変換関数を生成
記録：トークン速度（tok/sec）／初トークン遅延／総トークン数／停止理由
注：値は同一条件の自前実測。速度は環境で変動し得るため、参考値として扱うこと

実測サマリ

モデル	トークン速度	初トークン	総トークン	概算生成時間	コードの特徴	所感
Qwen 3-VL-4B	76.02 tok/sec	0.20 s	786	≈ 10.3 s	`DictWriter`で最短解、即実行可、説明最小	最速／プロトタイピング向き
Hermes 4-14B	32.68 tok/sec	0.55 s	502	≈ 15.4 s	分岐整理された素直な実装、コメント最小限	中庸の実用安定
Gemma 3n-E4B	13.55 tok/sec	0.34 s	1280	≈ 94.5 s	エラーハンドリング厚め、丁寧な説明・日本語コメント	堅牢だが冗長
GPT-OSS 20B	14.33 tok/sec	0.82 s	1307	≈ 91.2 s	型ヒント・docstring・CLI整備、BOMオプション等	構造化最高／速度は遅め

※ 概算時間＝総トークン÷トークン速度

4モデルの“性格”を一言で

Qwen：職人の速描。要件の芯だけを的確に刺す。待たない＝思考が切れない。
Hermes：定石の実装。余計な脚色なく、素直に使える。
Gemma：教育的で親切。入力検証や例外処理が厚く、初手から安全運転。
GPT-OSS：エンタープライズ仕様。CLIやBOM付与まで含む“周辺の面倒を先回り”。

なぜ“速さ”が効くのか

人間は待つ間に思考が冷える。初トークン0.2秒、出力完了10秒級のQwenは、入力→確認→再指示の対話ループを“息継ぎなし”で回せる。これは単なる快適さではない。探索（プロトタイピング）の総当たり回数が増え、設計の枝打ちが深くなる。速度は精度の敵ではなく、精度に到達する試行回数の味方だ。