9Bが「SLM」と呼ばれる時代 ─ Nemotron Nano v2が示す、NVIDIAのもう一つの顔

9Bが「SLM」と呼ばれる時代 ─ Nemotron Nano v2が示す、NVIDIAのもう一つの顔 TECH
9Bが「SLM」と呼ばれる時代 ─ Nemotron Nano v2が示す、NVIDIAのもう一つの顔

NVIDIAがNemotron-Nano-9B-v2-Japaneseを発表した。公式はこれを「高度な日本語処理能力を備えたSLM(Small Language Model)」と呼ぶ。9BがSLM。この一言だけで、AI業界のスケール感覚がどこまでインフレしたかが分かる。本稿では、かつて「nanoなのに24GB」と言われたNemotron 3との対比から、NVIDIAが選び始めたもう一つの設計思想を読み解く。


NVIDIA が Nemotron-Nano-9B-v2-Japanese を発表した。
公式はこれを「高度な日本語処理能力を備えた SLM(Small Language Model)」と呼ぶ。

nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

9B が SLM。
この一文だけで、AI業界のスケール感覚がどこまでインフレしたかが分かる。

数年前なら、7B〜13B クラスは「普通にでかいモデル」だった。
それが今や「小型モデル」の範疇に入る。
この言葉のズレそのものが、いまのAI産業の空気をよく表している。


「nano」なのに24GBだった時代から

少し前、NVIDIA は Nemotron 3 を発表した。
そこには多くの技術者が同じ違和感を覚えたはずだ。

「nano なのに 24GB 超」

あのモデルは MoE(Mixture of Experts)を採用し、
「推論時に動かす部分だけを減らす」ことで巨大モデルを成立させる設計だった。

つまり、あのときの “nano” は
サイズの話ではなく、計算量の話 だった。

総パラメータは巨大なまま、
実際に動かす部分だけを絞る。
結果として、

  • 推論は軽い
  • だがモデル全体は重い
  • メモリ要求もファイルサイズも巨大

という、直感に反する姿になる。

あれは誤植でも事故でもなく、設計思想の帰結だった。


今回の「Nano」は、意味が違う

今回の Nemotron-Nano-9B-v2 は、様子がまったく違う。

  • MoE を前面に出していない
  • サイズも実際に 9B クラス
  • 売り文句は「効率」「スループット」「実用性」

ここでの “nano” は、
巨大モデルを成立させるための nano ではない。

実用サイズを、どこまで研ぎ澄ませるか
その意味での nano だ。

同じ Nemotron という名前を冠しながら、
NVIDIA はまったく別の方向を同時に走らせている。


「速い」は、GPUの話ではない

NVIDIA はこのモデルを「高速」「高スループット」と表現している。
ただし、公式プレイグラウンドの挙動だけで速度を論じるのは正直難しい。

  • 混雑している可能性がある
  • トークン制限がかかる
  • 裏で何の GPU が使われているかは分からない

つまり、「H200 だから速いだけでは?」という疑念は常につきまとう。

今回は、体感レビューで語る段階ではない
お触り評価は後日、条件を揃えた形でやるべきだろう。

それでも、公式のメッセージははっきりしている。

このモデルが狙っているのは、

  • 巨大モデルをどう成立させるか、ではなく
  • 実用サイズで、どこまで効率を詰められるか

という別の最適化軸だ。

MoE による「巨大モデル延命装置」とは、方向性がまったく違う。


公開されている公式ベンチマーク

NVIDIA はいくつかのベンチマークスコアも公開している。

nvidia-nemotron-nano-9b-v2 Model by NVIDIA | NVIDIA NIM
High‑efficiency LLM with hybrid Transformer‑Mamba design, excelling in reasoning and agentic tasks.
AIME25              72.1%
MATH500             97.8%
GPQA                64.0%
LCB                 71.1%
BFCL v3             66.9%
IFEVAL-Prompt       85.4%
IFEVAL-Instruction  90.3%

もちろん、これは公式ベンチマークだ。
実運用での体感や、日本語タスクでの挙動は別途検証が必要になる。

ただ少なくとも、

「9B クラスを、単なる軽量モデルではなく“実用推論エンジン”として本気でチューニングしている」

という意図は、ここから読み取れる。


Nemotron は二正面作戦に入った

整理すると、NVIDIA の Nemotron 系は、はっきり二つの方向に分岐している。

Nemotron 3 系

  • MoE
  • 総量は巨大
  • データセンター / GPU 前提
  • 企業向け推論基盤
  • 「巨大モデル産業をどう成立させるか」の路線

Nemotron Nano 9B v2 系

  • Dense / 効率重視
  • 実用サイズ
  • エッジ / オンプレ / 組み込み志向
  • 「配れる AI」「組み込める AI」の路線

同じ “Nemotron” という名前を使いながら、
見ている未来はまったく違う。


9Bが「SLM」と呼ばれる時代

今回いちばん象徴的なのは、やはりこの一点だ。

9B が「SLM(Small Language Model)」と呼ばれていること。

これは単なるマーケティング用語ではない。
AI業界全体のスケール感覚が、ここまで引き伸ばされたという事実の表れでもある。

かつて「でかい」と言われていたサイズが、
いまや「実用的な小型モデル」の範疇に入る。

この変化そのものが、
NVIDIA がどこを見てモデルを作っているのかを、かなり正直に物語っている。


まとめ

Nemotron 3 は、巨大モデル産業のための nano だった。
Nemotron Nano 9B v2 は、実用AI時代のための nano だ。

同じ名前を持ちながら、役割はまったく違う。

そして、9B が「SLM」と呼ばれる時代になったという事実そのものが、
いまのAI業界のスケール感覚と、NVIDIA の戦略転換を、何より雄弁に語っている。