Gemma 3 〈12B〉で分かる量子化の読み方――Q4_K_M / Q5_K_M / Q8_0 を“雰囲気”で選ばないための実戦講座（RTX 3060/12GB）

あなたがLM Studioで「Q4_K_M」を選ぶとき、根拠はありますか？
多くの人は“なんとなく軽そうだから”で決めています。でも量子化ラベルは全部に意味があり、理解して選ぶだけで同じGPUでも精度も速度も別物になります。
本稿は、いま最も現実的で母数が大きい Gemma 3〈12B〉 を舞台に、Q4／Q5／Q8 と K_S／K_M／K_Lの“本当の違い”をRTX 3060（12GB）ユーザー目線で言い切ります。
結論から先に──まずは Q4_K_M が基準。そこから用途に合わせて Q5 か E4B（6.9B）に振る。これが最短ルートです。

量子化ラベルの“読み方”を1分で
RTX 3060（12GB）現実ライン：これで選べば失敗しない
1. Q4_K_M のRTX3060（12GB）上でのパフォーマンス
ざっくり容量＆運用の目安（感覚値で把握）
目的別最短チャート
LM Studio 小ワザ（安全圏）
仕上げに“読者得”の表

量子化ラベルの“読み方”を1分で

Q4 / Q5 / Q6 / Q8
→ 重み（weights）のビット数。数字が小さいほど軽く速いが、精度は落ちやすい。
K
→ k-quant（改良型量子化）。同じビット数でも精度を落としにくい手法。“Kが付くなら基本は良い選択”。
…K_S / K_M / K_L
→ S=Small、M=Medium、L=Largeの“設計バランス違い”。
- K_S：さらに軽量寄り（速い・小さい・わずかに精度低下しやすい）
- K_M：バランス型（まずコレ）
- K_L：精度寄り（重め・VRAM要求上がる）
IQ4_XS / IQ4_NL
→ Activation-Aware系などの“上級手法”。サイズは小さいのに精度保ちやすいが、実装依存で速度が落ちることも。慣れてからでOK。
Q8_0
→ 8bitの“素直で重い”方式。精度優先の検証用に。

RTX 3060（12GB）現実ライン：これで選べば失敗しない

基準機：Gemma 3〈12B〉GGUF

まずは：Q4_K_M（推奨）
- ねらい：速度×精度のバランス。LLMの“素の力”を落としすぎず回る。
- 体感：会話・要約・下書き生成なら十分。長文や厳密推論で粗が出たら次へ。
もう少し強く：Q5_K_M
- ねらい：コード補完／長文推論／一発回答の確度を上げたいとき。
- 注意：VRAMと速度にやや負荷。3060/12GBなら現実的だが余裕は減る。
最大品質派：Q8_0
- ねらい：ベンチや比較・評価用。
- 注意：VRAM的に“全部GPU載せ”は厳しい。自動オフロードで混載運用（VRAM＋RAM）。実務では非推奨。
軽快運用の逃げ道：Gemma 3n E4B（6.9B）Q4_K_M
- ねらい：速度重視・多並列・自動化のバックエンド。
- 体感：文章品質は12Bに劣るが、ブログ下書き・要約・タスク実行は軽快。
- 使い分け：「書く・要約＝E4B」／「仕上げ・推論＝12B」 の二刀流が実務最強。

ルール一行：迷ったら Q4_K_M。
さらに確度が欲しくなったら Q5_K_M に上げる。速度が欲しければ E4B（6.9B）Q4_K_M に降ろす。

Q4_K_M のRTX3060（12GB）上でのパフォーマンス

かなり良好です。
立ち上がりから出力までのレスポンス、35tok/sec というスループット。
どちらも実用に不安を抱かせる要素は見当たりません。

ざっくり容量＆運用の目安（感覚値で把握）

Gemma 3〈12B〉 Q4_K_M：モデルファイル ~7–9GB前後／3060でも実用
Gemma 3〈12B〉 Q5_K_M：~9–11GB／余裕は減るが可
Gemma 3〈12B〉 Q8_0：~15GB超（ファイル）／VRAM内完結は厳しい→自動オフロード
Gemma 3n E4B（6.9B） Q4_K_M：~4–5GB／軽快

※ LM Studio は自動で GPUレイヤー数を最適化します。まず Auto でOK。コンテキストは 4K前後が安定。重いと感じたら ctxを下げる or E4Bに切替。

目的別最短チャート

ブログ下書き・要約・リライト中心 → E4B（6.9B）Q4_K_M
推論・コードの“正確さ”がほしい → 12B Q5_K_M
まずは間違えたくない／標準運用 → 12B Q4_K_M
精度検証・ベンチ → 12B Q8_0（混載覚悟）

LM Studio 小ワザ（安全圏）

GPU Offload：Auto（まず任せる）
Context：4096（重いときは 3072/2048 に）
Batch：デフォルトでOK。エラー時は一段下げる
テンプレ：Gemma 3 用の既定プリセットを使用（独自テンプレは後で）

仕上げに“読者得”の表

Q4_K_S…さらに軽い。スピード最優先や古いGPUで。
Q4_K_M…まずコレ。平均点が高い。
Q4_K_L…精度寄り。VRAMに余裕がある時。
Q5_K_M…精度を一段上げる現実解。コード・長推論。
Q6_K…中間。用途がハマるなら。
Q8_0…品質最優先だが重い。検証用途。
IQ4_XS / IQ4_NL…“通好み”。速度低下リスクと引き換えに小さく・賢くを狙う。

Q4_K_M の Gemma 3 12B は、RTX3060 でも“思っていたより遥かに現実的”な戦力だった。

ただ、LMは“マルチブートできる”が、VRAMは一枚きり。
12Bを載せたままAPI経由でE4Bを重複起動すると、Sharedへ雪崩れ込む。
運用の答えは役割分担——E4Bを常駐ワーカー、12Bは仕上げ時だけ呼んで使い終わったらUnload。