激速!Qwen 3-VL-4B ─ ローカルLLM4モデル横断で見えたコーディング能力の性格差

激速!Qwen 3-VL-4B ─ ローカルLLM4モデル横断で見えたコーディング能力の性格差 TECH

リグが同じでも、モデルの“性格”はまるで違う。
同一環境(RTX 3060/LM Studio/Q4_K_M)・同一課題(「PythonでJSON→CSV変換関数を書け」)で、Qwen 3-VL-4B/Hermes 4-14B/Gemma 3n-E4B/GPT-OSS-20Bを実測した。4Bから20Bまで混じる“厳密にはフェアでない”比較だが、コーディングに関するモデルごとの実務的性格は十分に立ち上がった。結論は明確だ。Qwenは“待機を消す速さ”でプロトタイピングを前に進め、GemmaとGPT-OSSは“過不足ない説明と堅牢性”で運用の安心を担保し、Hermesはその中庸に収まる。


計測前提(再現性メモ)

  • 環境:RTX 3060(12GB)/LM Studio/量子化 Q4_K_M
  • プロンプト:PythonでJSON→CSV変換関数を生成
  • 記録:トークン速度(tok/sec)/初トークン遅延/総トークン数/停止理由
  • 注:値は同一条件の自前実測。速度は環境で変動し得るため、参考値として扱うこと

実測サマリ

モデルトークン速度初トークン総トークン概算生成時間コードの特徴所感
Qwen 3-VL-4B76.02 tok/sec0.20 s786≈ 10.3 sDictWriterで最短解、即実行可、説明最小最速/プロトタイピング向き
Hermes 4-14B32.68 tok/sec0.55 s502≈ 15.4 s分岐整理された素直な実装、コメント最小限中庸の実用安定
Gemma 3n-E4B13.55 tok/sec0.34 s1280≈ 94.5 sエラーハンドリング厚め、丁寧な説明・日本語コメント堅牢だが冗長
GPT-OSS 20B14.33 tok/sec0.82 s1307≈ 91.2 s型ヒント・docstring・CLI整備、BOMオプション等構造化最高/速度は遅め

※ 概算時間=総トークン÷トークン速度


4モデルの“性格”を一言で

  • Qwen:職人の速描。要件の芯だけを的確に刺す。待たない=思考が切れない
  • Hermes:定石の実装。余計な脚色なく、素直に使える。
  • Gemma:教育的で親切。入力検証や例外処理が厚く、初手から安全運転
  • GPT-OSS:エンタープライズ仕様。CLIやBOM付与まで含む“周辺の面倒を先回り”。

なぜ“速さ”が効くのか

人間は待つ間に思考が冷える。初トークン0.2秒、出力完了10秒級のQwenは、入力→確認→再指示の対話ループを“息継ぎなし”で回せる。これは単なる快適さではない。探索(プロトタイピング)の総当たり回数が増え、設計の枝打ちが深くなる。速度は精度の敵ではなく、精度に到達する試行回数の味方だ。


一方で“厚み”は運用の寿命

Gemma/GPT-OSSが冗長気味に見えるのは、運用初期から入力検証・例外処理・利用者説明を抱え込む設計思想ゆえ。プロトタイプ後の現場では、“なぜそう動くのか”が説明できることが信頼の源泉になる。Hermesはその中間で、素直なテンプレ設計が社内共有の起点に向く。


モデル別おすすめ使いどころ

  • 設計の探索・試作:Qwen 3-VL-4B
    短時間で“叩き台”を何本も出す。方針が決まるまでの試行速度を最優先。
  • チーム標準の雛形:Hermes 4-14B
    過不足ない雛形を迅速に。読みやすく、後工程で手を入れやすい。
  • 最初から運用視点:Gemma 3n-E4B
    例外・入力検証・ユーザー説明を含む“説明可能な最初の版”をすぐ持つ。
  • 社外提供/長期保守:GPT-OSS 20B
    CLI・docstring・オプション整備まで含む完成度の高い配布物を短工数で。

速度と堅牢性の“二軸”で見る

  • 縦軸:スループット(tok/sec) … 思考のテンポ
  • 横軸:構造化(型・doc・CLI・例外) … 可読性と運用寿命

配置感覚としては、Qwen(速度極) ↔ GPT-OSS(構造極)、Hermesが中央寄り、Gemmaは構造寄りで説明厚め。


まとめ

  • 速さ=創造のテンポ厚み=運用の寿命
  • Qwenは前者を極限まで押し上げ、Gemma/GPT-OSSは後者を初期状態で担保し、Hermesは両立の実用点に立つ。
  • “公平な4B対決”ではないが、ローカルLLM実務の現実解としては十分に有益なスナップショットになった。

一言でいえば──Qwenが試作を押し出し、GemmaとGPT-OSSが現場を守り、Hermesが日常を回す。


付録:再現の手順(要点のみ)

  1. LM Studio で各モデルの Q4_K_M をロード
  2. プロンプト固定:「PythonでJSON→CSV変換関数を書いてください」
  3. 記録:トークン速度/初トークン遅延/総トークン数/停止理由
  4. 生成コードをそのまま保存、最小修正で実行検証(入出力ファイル名のみ調整)

(注:本稿の数値は同一環境での実測。環境差・設定差で変動し得ます)