9Bが「SLM」と呼ばれる時代 ─ Nemotron Nano v2が示す、NVIDIAのもう一つの顔

NVIDIAがNemotron-Nano-9B-v2-Japaneseを発表した。公式はこれを「高度な日本語処理能力を備えたSLM（Small Language Model）」と呼ぶ。9BがSLM。この一言だけで、AI業界のスケール感覚がどこまでインフレしたかが分かる。本稿では、かつて「nanoなのに24GB」と言われたNemotron 3との対比から、NVIDIAが選び始めたもう一つの設計思想を読み解く。

NVIDIA が Nemotron-Nano-9B-v2-Japanese を発表した。
公式はこれを「高度な日本語処理能力を備えた SLM（Small Language Model）」と呼ぶ。

nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

9B が SLM。
この一文だけで、AI業界のスケール感覚がどこまでインフレしたかが分かる。

数年前なら、7B〜13B クラスは「普通にでかいモデル」だった。
それが今や「小型モデル」の範疇に入る。
この言葉のズレそのものが、いまのAI産業の空気をよく表している。

「nano」なのに24GBだった時代から
今回の「Nano」は、意味が違う
「速い」は、GPUの話ではない
公開されている公式ベンチマーク
Nemotron は二正面作戦に入った
9Bが「SLM」と呼ばれる時代
まとめ

「nano」なのに24GBだった時代から

少し前、NVIDIA は Nemotron 3 を発表した。
そこには多くの技術者が同じ違和感を覚えたはずだ。

「nano なのに 24GB 超」

あのモデルは MoE（Mixture of Experts）を採用し、
「推論時に動かす部分だけを減らす」ことで巨大モデルを成立させる設計だった。

つまり、あのときの “nano” は
サイズの話ではなく、計算量の話 だった。

総パラメータは巨大なまま、
実際に動かす部分だけを絞る。
結果として、

推論は軽い
だがモデル全体は重い
メモリ要求もファイルサイズも巨大

という、直感に反する姿になる。

あれは誤植でも事故でもなく、設計思想の帰結だった。

今回の「Nano」は、意味が違う

今回の Nemotron-Nano-9B-v2 は、様子がまったく違う。

MoE を前面に出していない
サイズも実際に 9B クラス
売り文句は「効率」「スループット」「実用性」

ここでの “nano” は、
巨大モデルを成立させるための nano ではない。

実用サイズを、どこまで研ぎ澄ませるか
その意味での nano だ。

同じ Nemotron という名前を冠しながら、
NVIDIA はまったく別の方向を同時に走らせている。

「速い」は、GPUの話ではない

NVIDIA はこのモデルを「高速」「高スループット」と表現している。
ただし、公式プレイグラウンドの挙動だけで速度を論じるのは正直難しい。

混雑している可能性がある
トークン制限がかかる
裏で何の GPU が使われているかは分からない

つまり、「H200 だから速いだけでは？」という疑念は常につきまとう。

今回は、体感レビューで語る段階ではない。
お触り評価は後日、条件を揃えた形でやるべきだろう。

それでも、公式のメッセージははっきりしている。

このモデルが狙っているのは、

巨大モデルをどう成立させるか、ではなく
実用サイズで、どこまで効率を詰められるか

という別の最適化軸だ。

MoE による「巨大モデル延命装置」とは、方向性がまったく違う。

公開されている公式ベンチマーク

NVIDIA はいくつかのベンチマークスコアも公開している。

nvidia-nemotron-nano-9b-v2 Model by NVIDIA | NVIDIA NIM

High‑efficiency LLM with hybrid Transformer‑Mamba design, excelling in reasoning and agentic tasks.

AIME25              72.1%
MATH500             97.8%
GPQA                64.0%
LCB                 71.1%
BFCL v3             66.9%
IFEVAL-Prompt       85.4%
IFEVAL-Instruction  90.3%

もちろん、これは公式ベンチマークだ。
実運用での体感や、日本語タスクでの挙動は別途検証が必要になる。

ただ少なくとも、

「9B クラスを、単なる軽量モデルではなく“実用推論エンジン”として本気でチューニングしている」

という意図は、ここから読み取れる。

Nemotron は二正面作戦に入った

整理すると、NVIDIA の Nemotron 系は、はっきり二つの方向に分岐している。

Nemotron 3 系

MoE
総量は巨大
データセンター / GPU 前提
企業向け推論基盤
「巨大モデル産業をどう成立させるか」の路線

Nemotron Nano 9B v2 系

Dense / 効率重視
実用サイズ
エッジ / オンプレ / 組み込み志向
「配れる AI」「組み込める AI」の路線

同じ “Nemotron” という名前を使いながら、
見ている未来はまったく違う。

9Bが「SLM」と呼ばれる時代

今回いちばん象徴的なのは、やはりこの一点だ。

9B が「SLM（Small Language Model）」と呼ばれていること。

これは単なるマーケティング用語ではない。
AI業界全体のスケール感覚が、ここまで引き伸ばされたという事実の表れでもある。

かつて「でかい」と言われていたサイズが、
いまや「実用的な小型モデル」の範疇に入る。

この変化そのものが、
NVIDIA がどこを見てモデルを作っているのかを、かなり正直に物語っている。

まとめ

Nemotron 3 は、巨大モデル産業のための nano だった。
Nemotron Nano 9B v2 は、実用AI時代のための nano だ。

同じ名前を持ちながら、役割はまったく違う。

そして、9B が「SLM」と呼ばれる時代になったという事実そのものが、
いまのAI業界のスケール感覚と、NVIDIA の戦略転換を、何より雄弁に語っている。