リグが同じでも、モデルの“性格”はまるで違う。
同一環境(RTX 3060/LM Studio/Q4_K_M)・同一課題(「PythonでJSON→CSV変換関数を書け」)で、Qwen 3-VL-4B/Hermes 4-14B/Gemma 3n-E4B/GPT-OSS-20Bを実測した。4Bから20Bまで混じる“厳密にはフェアでない”比較だが、コーディングに関するモデルごとの実務的性格は十分に立ち上がった。結論は明確だ。Qwenは“待機を消す速さ”でプロトタイピングを前に進め、GemmaとGPT-OSSは“過不足ない説明と堅牢性”で運用の安心を担保し、Hermesはその中庸に収まる。
計測前提(再現性メモ)
- 環境:RTX 3060(12GB)/LM Studio/量子化 Q4_K_M
- プロンプト:PythonでJSON→CSV変換関数を生成
- 記録:トークン速度(tok/sec)/初トークン遅延/総トークン数/停止理由
- 注:値は同一条件の自前実測。速度は環境で変動し得るため、参考値として扱うこと
実測サマリ
| モデル | トークン速度 | 初トークン | 総トークン | 概算生成時間 | コードの特徴 | 所感 |
|---|---|---|---|---|---|---|
| Qwen 3-VL-4B | 76.02 tok/sec | 0.20 s | 786 | ≈ 10.3 s | DictWriterで最短解、即実行可、説明最小 | 最速/プロトタイピング向き |
| Hermes 4-14B | 32.68 tok/sec | 0.55 s | 502 | ≈ 15.4 s | 分岐整理された素直な実装、コメント最小限 | 中庸の実用安定 |
| Gemma 3n-E4B | 13.55 tok/sec | 0.34 s | 1280 | ≈ 94.5 s | エラーハンドリング厚め、丁寧な説明・日本語コメント | 堅牢だが冗長 |
| GPT-OSS 20B | 14.33 tok/sec | 0.82 s | 1307 | ≈ 91.2 s | 型ヒント・docstring・CLI整備、BOMオプション等 | 構造化最高/速度は遅め |
※ 概算時間=総トークン÷トークン速度
4モデルの“性格”を一言で
- Qwen:職人の速描。要件の芯だけを的確に刺す。待たない=思考が切れない。
- Hermes:定石の実装。余計な脚色なく、素直に使える。
- Gemma:教育的で親切。入力検証や例外処理が厚く、初手から安全運転。
- GPT-OSS:エンタープライズ仕様。CLIやBOM付与まで含む“周辺の面倒を先回り”。
なぜ“速さ”が効くのか
人間は待つ間に思考が冷える。初トークン0.2秒、出力完了10秒級のQwenは、入力→確認→再指示の対話ループを“息継ぎなし”で回せる。これは単なる快適さではない。探索(プロトタイピング)の総当たり回数が増え、設計の枝打ちが深くなる。速度は精度の敵ではなく、精度に到達する試行回数の味方だ。
一方で“厚み”は運用の寿命
Gemma/GPT-OSSが冗長気味に見えるのは、運用初期から入力検証・例外処理・利用者説明を抱え込む設計思想ゆえ。プロトタイプ後の現場では、“なぜそう動くのか”が説明できることが信頼の源泉になる。Hermesはその中間で、素直なテンプレ設計が社内共有の起点に向く。
モデル別おすすめ使いどころ
- 設計の探索・試作:Qwen 3-VL-4B
短時間で“叩き台”を何本も出す。方針が決まるまでの試行速度を最優先。 - チーム標準の雛形:Hermes 4-14B
過不足ない雛形を迅速に。読みやすく、後工程で手を入れやすい。 - 最初から運用視点:Gemma 3n-E4B
例外・入力検証・ユーザー説明を含む“説明可能な最初の版”をすぐ持つ。 - 社外提供/長期保守:GPT-OSS 20B
CLI・docstring・オプション整備まで含む完成度の高い配布物を短工数で。
速度と堅牢性の“二軸”で見る
- 縦軸:スループット(tok/sec) … 思考のテンポ
- 横軸:構造化(型・doc・CLI・例外) … 可読性と運用寿命
配置感覚としては、Qwen(速度極) ↔ GPT-OSS(構造極)、Hermesが中央寄り、Gemmaは構造寄りで説明厚め。
まとめ
- 速さ=創造のテンポ、厚み=運用の寿命。
- Qwenは前者を極限まで押し上げ、Gemma/GPT-OSSは後者を初期状態で担保し、Hermesは両立の実用点に立つ。
- “公平な4B対決”ではないが、ローカルLLM実務の現実解としては十分に有益なスナップショットになった。
一言でいえば──Qwenが試作を押し出し、GemmaとGPT-OSSが現場を守り、Hermesが日常を回す。
付録:再現の手順(要点のみ)
- LM Studio で各モデルの Q4_K_M をロード
- プロンプト固定:「PythonでJSON→CSV変換関数を書いてください」
- 記録:トークン速度/初トークン遅延/総トークン数/停止理由
- 生成コードをそのまま保存、最小修正で実行検証(入出力ファイル名のみ調整)
(注:本稿の数値は同一環境での実測。環境差・設定差で変動し得ます)





