256Kは本当か? ─ Nemotron-3 Nano 4Bの“容量と知能のズレ”

256Kは本当か? ─ Nemotron-3 Nano 4Bの“容量と知能のズレ” TECH

NVIDIAから軽量LLM「Nemotron-3 Nano 4B」が公開された。

Tool Use 対応で、エージェント用途を強く意識したモデルであり、
軽量・高速・制御性を売りとしている。

今回はLM Studioに届いていたので、
Thinking ON / OFFの挙動差、エージェント適性、文章生成、コード生成を短時間で検証した。

結論から言えば、これは“賢いAI”ではない。
しかし、“使える歯車”としての可能性は確かにある。


LM Studio のモデルカード
LM Studio のモデルカード

基本スペックと位置づけ

Nemotron-3 Nano 4Bの特徴はシンプルだ。

  • 約4Bパラメータの軽量モデル
  • 高速推論(実測 約80tok/sec)
  • ツール連携・エージェント用途を前提設計
  • 出力の安定性と制御性を重視

これはGPTやGeminiのような“万能型”ではなく、

👉 「組み込まれるAI」

という立ち位置になる。


256Kはどこで効くのか ─ 実用ラインの見極め

コラム なぜ4Bで256Kが成立するのか ─ Mamba2の役割

Nemotron-3 Nano 4Bが256Kコンテキストを実現している理由は、
Transformer単体ではなく、Mamba2とのハイブリッド構造にある。

従来のTransformerは、すべてのトークン同士を相互参照する構造を持つため、
入力が長くなるほど計算量とメモリ消費が急激に増加する。

一方、Mamba2は「状態空間モデル(SSM)」と呼ばれる系統で、

  • 過去の情報を“状態”として圧縮して保持
  • 必要な情報を順次取り出す

という仕組みを持つ。

これにより、

👉 長文でも計算量を抑えながら処理できる


ただし重要な違い

この仕組みは強力だが、同時に特性もはっきりしている。

Transformer:
👉 全体を見渡すのが得意(精密な関係把握)

Mamba2:
👉 流れとして処理するのが得意(長文効率)


ここが“ズレ”の正体

Nemotronはこの2つを組み合わせているが、

👉 長さに強くなった代わりに、精密な関係把握は弱くなる

傾向がある。

これは今回の検証結果とも一致する。

  • 論理問題 → 詰めが甘い
  • エージェント → 抜けが出る
  • 長文 → 保持はできるが精度は怪しい

本質的な理解

Mamba2は

👉 “全部覚える”のではなく、“流れとして扱う”技術

である。

そのため256Kは成立するが、

👉 すべてを同時に正確に扱えるわけではない


一言でまとめると

👉 Mambaは長さを救い、Transformerは精度を支える


256Kという数字だけを見ると、すべてを一度に理解できるような印象を受ける。
しかし実際には、「入る」と「扱える」は別問題だ。

今回の検証でも、Nemotron-3 Nano 4Bは

  • JSON生成や単発タスクでは安定
  • Thinking ONで精度は改善
  • しかし論理の詰めやタスク漏れは残る

という傾向を見せた。

この性格を踏まえると、256Kコンテキストの実用ラインは明確になる。


効くケース

  • 会話履歴を長く保持する
  • RAGで大量の資料を一括投入する
  • ログや議事録をそのまま渡す

👉 “忘れにくくする用途”には強い


効かないケース

  • 長文の精密な要約
  • 複数条件をまたいだ論理推論
  • 長距離の依存関係を正確に追う処理

👉 “長さを使った知的処理”には弱い


本質

Nemotron-3-4B の256Kは、

👉 思考領域ではなく、保持領域の拡張

であると考えられる。


現場目線の使い方

このモデルは、

  • 長い情報を持たせておく
  • 必要な部分だけを取り出して処理させる

という使い方が適している。

逆に、

👉 全部読ませて理解させようとすると破綻する


一言で言うと

👉 “256Kは脳ではなく倉庫”

テスト①:Thinking ON / OFF 比較(エージェントタスク)

業務メールからタスクを抽出させるテストを実施。

あなたは業務アシスタントです。

以下のメールを読み、必要なアクションを整理してください。

---
件名:見積書の修正依頼

お世話になっております。
先日いただいた見積書について、以下の修正をお願いします。

・数量を10→12に変更
・納期を「3月末」→「4月10日」に変更
・支払い条件を「月末締め翌月払い」→「納品後30日以内」に変更

また、修正後の見積書をPDFで再送いただけますでしょうか。

急ぎではありませんが、今週中に対応いただけると助かります。
---

出力形式:
{
  "tasks": [
    {"task": "", "priority": "", "deadline": ""}
  ],
  "summary": ""
}

制約:
・tasksは最大5件
・priorityは「高・中・低」
・deadlineは具体日 or 「今週中」
・summaryは80文字以内

Thinking OFF

  • JSON形式:完璧
  • 主要修正:抽出できる
  • しかし
    • PDF再送タスクを取りこぼし
    • 優先度がバラバラ
    • 実務粒度が弱い

👉 速いが詰めが甘い

回答:

nvidia/nemotron-3-nano-4b
{
"tasks": [
{"task": "見積書数量変更10→12", "priority": "高", "deadline": "今週中"},
{"task": "見積書納期変更4月10日", "priority": "中", "deadline": "今週中"},
{"task": "見積書支払い条件変更30日以内", "priority": "低", "deadline": "今週中"}
],
"summary": "見積書修正依頼: 数量12、納期4月10日、支払30日"
}

Thinking ON

  • summary改善(PDF再送を認識)
  • 表現は整う

しかし

  • タスクとしては依然未登録
  • priorityは全て「高」
  • 抜けは補完されない

👉 “整うが、精度は上がらない”

nvidia/nemotron-3-nano-4b
Thought for 4.32 seconds

"tasks": [
{
"task": "数量を10→12に変更",
"priority": "高",
"deadline": "今週中"
},
{
"task": "納期を3月末→4月10日に変更",
"priority": "高",
"deadline": "今週中"
},
{
"task": "支払い条件を末締め翌月払い→納品後30日以内に変更",
"priority": "高",
"deadline": "今週中"
}
],
"summary": "見積書修正依頼:数量・納期・支払条件変更、PDF再送"
}

このテストの結論

Nemotronは

  • 形式遵守:強い
  • 情報抽出:そこそこ
  • 判断:弱い

👉 優秀なメモ係だが、判断は任せられない


テスト②:日本語表現(おまけ)

俳句を生成させてみた。
結果は割愛して、評価のみ。

結果:

  • 5-7-5崩壊
  • 「〜のよう」系の安直な比喩
  • 未完文

👉 情緒はほぼゼロ

ただしThinking ONで

  • 詩っぽさは増す
  • しかし構造は守れない

👉 “詩心は芽生えるが、型を知らない”


テスト③:コード生成(HTML+JS)

Markdownエディタを生成させた。

結果:

  • 1ファイル完結
  • 即動作
  • 説明付き
  • 破綻なし
Nemotron-3 Nano 4B がコーディングした Markdown エディタ
Nemotron-3 Nano 4B がコーディングした Markdown エディタ

ただし

  • Markdownの一部をHTMLで代替(ul/li)
  • 設計としては雑

👉 仕様より安定性を優先

プロンプト:

ブラウザで動くMarkdownエディタ(ライブプレビュー付き)
を HTML + JavaScript だけで生成して。

生成コード:

<!DOCTYPE html>
<html lang="ja">
<head>
  <meta charset="UTF-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
  <title>Markdown エディタ</title>
  <style>
    body {
      font-family: monospace;
      margin: 20px;
      line-height: 1.6;
      background-color: #f9f9f9;
    }
    textarea, input {
      width: 100%;
      padding: 8px;
      border: none;
      border-radius: 4px;
      font-size: 1rem;
      box-sizing: border-box;
    }
    textarea {
      height: 250px;
    }
    #preview {
      margin-top: 20px;
      padding: 16px;
      background-color: white;
      border-radius: 8px;
      overflow: auto;
      font-size: 1.1rem;
      color: #333;
      min-height: 100px;
    }
    button {
      margin-top: 20px;
      padding: 8px 16px;
      background-color: #4a90e2;
      color: white;
      border: none;
      border-radius: 4px;
      cursor: pointer;
    }
    button:hover {
      background-color: #357ab8;
    }
  </style>
</head>
<body>

  <h1>Markdown エディタ</h1>
  <p>テキストや Markdown を入力してください。<br>すぐにプレビューされます。</p>

  <textarea id="mdText" placeholder="例: #見出し
  これは本文です。<br><ul>
    <li>アイテム一</li>
    <li>アイテム二</li>
  </ul>
  ">Markdown を入力してください:</textarea>

  <button onclick="render()">プレビューする</button>

  <div id="preview">何も表示されていません。</div>

  <script>
    function render() {
      const mdText = document.getElementById("mdText").value;
      const preview = document.getElementById("preview");
      
      // Markdown を HTML に変換(簡易版)
      let htmlContent = `
        <h1>${mdText.replace(/^#\n/, "").replace(/\n\s*#/g, "")}</h1>
        ${mdText}  <!-- そのまま表示 -->
      `;

      // プレビューに表示
      preview.innerHTML = htmlContent;
    }
  </script>

</body>
</html>

ここが重要

このコード、実はかなり良い。

  • 壊れない
  • すぐ使える
  • 拡張しやすい

👉 現場では“ちょうどいい”


総合評価

Nemotron-3 Nano 4Bはこういうモデルだ。

  • 速い
  • 壊れない
  • 指示に忠実
  • でも賢くはない

本質

このモデルは

👉 「考えるAI」ではなく「実行するAI」


向いている用途

  • JSON生成
  • タスク分解(補助)
  • UI雛形生成
  • 小ツール作成
  • エージェントの一部パーツ

向いていない用途

  • 厳密な論理推論
  • 判断が必要な業務
  • 日本語表現
  • クリエイティブ生成

最終結論

Nemotron-3 Nano 4Bは、

👉 “賢くはないが、扱いやすい”

そして最も重要なのはこれだ。

👉 壊れない


締め

こいつに日本語の情緒を求めるのは間違いだ。
俳句を書かせるAIではない。

だが、

雑に投げても壊れず、
それなりの形で返してくる。

それだけで、現場では価値がある。


一刀両断

👉 “長さはMambaが稼ぎ、精度は犠牲になる”