あなたがLM Studioで「Q4_K_M」を選ぶとき、根拠はありますか?
多くの人は“なんとなく軽そうだから”で決めています。でも量子化ラベルは全部に意味があり、理解して選ぶだけで同じGPUでも精度も速度も別物になります。
本稿は、いま最も現実的で母数が大きい Gemma 3〈12B〉 を舞台に、Q4/Q5/Q8 と K_S/K_M/K_Lの“本当の違い”をRTX 3060(12GB)ユーザー目線で言い切ります。
結論から先に──まずは Q4_K_M が基準。そこから用途に合わせて Q5 か E4B(6.9B)に振る。これが最短ルートです。
量子化ラベルの“読み方”を1分で
- Q4 / Q5 / Q6 / Q8
→ 重み(weights)のビット数。数字が小さいほど軽く速いが、精度は落ちやすい。 - K
→ k-quant(改良型量子化)。同じビット数でも精度を落としにくい手法。“Kが付くなら基本は良い選択”。 - …K_S / K_M / K_L
→ S=Small、M=Medium、L=Largeの“設計バランス違い”。- K_S:さらに軽量寄り(速い・小さい・わずかに精度低下しやすい)
- K_M:バランス型(まずコレ)
- K_L:精度寄り(重め・VRAM要求上がる)
- IQ4_XS / IQ4_NL
→ Activation-Aware系などの“上級手法”。サイズは小さいのに精度保ちやすいが、実装依存で速度が落ちることも。慣れてからでOK。 - Q8_0
→ 8bitの“素直で重い”方式。精度優先の検証用に。
RTX 3060(12GB)現実ライン:これで選べば失敗しない
基準機:Gemma 3〈12B〉GGUF
- まずは:Q4_K_M(推奨)
- ねらい:速度×精度のバランス。LLMの“素の力”を落としすぎず回る。
- 体感:会話・要約・下書き生成なら十分。長文や厳密推論で粗が出たら次へ。
- もう少し強く:Q5_K_M
- ねらい:コード補完/長文推論/一発回答の確度を上げたいとき。
- 注意:VRAMと速度にやや負荷。3060/12GBなら現実的だが余裕は減る。
- 最大品質派:Q8_0
- ねらい:ベンチや比較・評価用。
- 注意:VRAM的に“全部GPU載せ”は厳しい。自動オフロードで混載運用(VRAM+RAM)。実務では非推奨。
- 軽快運用の逃げ道:Gemma 3n E4B(6.9B)Q4_K_M
- ねらい:速度重視・多並列・自動化のバックエンド。
- 体感:文章品質は12Bに劣るが、ブログ下書き・要約・タスク実行は軽快。
- 使い分け:「書く・要約=E4B」/「仕上げ・推論=12B」 の二刀流が実務最強。
ルール一行:迷ったら Q4_K_M。
さらに確度が欲しくなったら Q5_K_M に上げる。速度が欲しければ E4B(6.9B)Q4_K_M に降ろす。
Q4_K_M のRTX3060(12GB)上でのパフォーマンス
かなり良好です。
立ち上がりから出力までのレスポンス、35tok/sec というスループット。
どちらも実用に不安を抱かせる要素は見当たりません。


ざっくり容量&運用の目安(感覚値で把握)
- Gemma 3〈12B〉 Q4_K_M:モデルファイル ~7–9GB前後/3060でも実用
- Gemma 3〈12B〉 Q5_K_M:~9–11GB/余裕は減るが可
- Gemma 3〈12B〉 Q8_0:~15GB超(ファイル)/VRAM内完結は厳しい→自動オフロード
- Gemma 3n E4B(6.9B) Q4_K_M:~4–5GB/軽快
※ LM Studio は自動で GPUレイヤー数を最適化します。まず Auto でOK。コンテキストは 4K前後が安定。重いと感じたら ctxを下げる or E4Bに切替。
目的別 最短チャート
- ブログ下書き・要約・リライト中心 → E4B(6.9B)Q4_K_M
- 推論・コードの“正確さ”がほしい → 12B Q5_K_M
- まずは間違えたくない/標準運用 → 12B Q4_K_M
- 精度検証・ベンチ → 12B Q8_0(混載覚悟)
LM Studio 小ワザ(安全圏)
- GPU Offload:Auto(まず任せる)
- Context:4096(重いときは 3072/2048 に)
- Batch:デフォルトでOK。エラー時は一段下げる
- テンプレ:Gemma 3 用の既定プリセットを使用(独自テンプレは後で)
仕上げに“読者得”の表
- Q4_K_S…さらに軽い。スピード最優先や古いGPUで。
- Q4_K_M…まずコレ。平均点が高い。
- Q4_K_L…精度寄り。VRAMに余裕がある時。
- Q5_K_M…精度を一段上げる現実解。コード・長推論。
- Q6_K…中間。用途がハマるなら。
- Q8_0…品質最優先だが重い。検証用途。
- IQ4_XS / IQ4_NL…“通好み”。速度低下リスクと引き換えに小さく・賢くを狙う。
Q4_K_M の Gemma 3 12B は、RTX3060 でも“思っていたより遥かに現実的”な戦力だった。
ただ、LMは“マルチブートできる”が、VRAMは一枚きり。
12Bを載せたままAPI経由でE4Bを重複起動すると、Sharedへ雪崩れ込む。
運用の答えは役割分担——E4Bを常駐ワーカー、12Bは仕上げ時だけ呼んで使い終わったらUnload。

