NVIDIAが発表したオープンモデル Nemotron 3。
エージェント型AI開発向け、推論特化、ビジネス対応──と、公式説明は実に立派だ。
だが実物を見た瞬間、多くの技術者が同じところで引っかかったはずだ。
「nano」なのに、24GB超。
これは単なるネーミングの誤解ではない。
Nemotron 3 というモデルが、いまのAI業界がどこへ向かっているのかを、かなり正直に映している。

「nano」とはサイズではない
結論から言うと、Nemotron 3 が “nano” と呼ばれている理由はモデルサイズではない。
このモデルは MoE(Mixture of Experts)、つまり「専門家分業型アーキテクチャ」を採用している。
- モデル全体としては巨大
- だが推論時に実際に動くのは一部の専門家だけ
そのため 推論の計算量が小さい。
この意味での “nano” だ。
ただし重要なのは、
専門家が動かなくても、モデルは丸ごと保持する必要がある という点だ。
結果として、
- 推論は軽い
- だがファイルサイズもメモリ要求も重い
という、直感に反する状態が生まれる。
nanoなのに24GB。
これは誤植でも事故でもない。設計思想の帰結だ。
MoEは「省エネ技術」ではない
MoEはしばしば「効率化技術」「省電力技術」のように語られる。
だが実態は少し違う。
MoEの本質は、
巨大モデルを“成立させ続ける”ための構造
だ。
Dense(密結合)モデルをそのまま巨大化すると、
学習も推論も、電力もコストも限界を超える。
そこで、
- 総パラメータは巨大なまま
- 実際に動かす部分だけを減らす
という折衷案としてMoEが選ばれた。
言い換えれば、
巨大モデル産業を延命するための技術。
省電力が主目的ではない。
電力クライシスの時代において、むしろ方向性は逆だ。
なぜChatGPTやGeminiはMoEを選ばないのか
ここで対照的なのが、
ChatGPT、Gemini、Claude、Grok といった主要な会話型AIだ。
これらはすべて Denseモデル を基盤としている。
理由は明確だ。
- 思考の一貫性
- 文体の安定
- 会話人格の継続
- 安全性・倫理制御の統一
これらは 1つの巨大な脳 を前提にしないと成立しない。
MoEは専門家が切り替わる構造上、
どうしても判断や文体の揺らぎを内包する。
Nemotron 3 が狙っているのは「会話AI」ではない。
企業システムの中で動く、推論エンジンとしてのAIだ。
ここに思想の分岐がある。
NemotronはLlamaベース、しかも公式
さらに重要なのは、
Nemotron 3 が Llamaモデルを基盤としている ことが、NVIDIA自身によって公式に明言されている点だ。
MetaのLlama系アーキテクチャは、
- 企業導入しやすい
- オープンで再利用可能
- GPU最適化と相性が良い
という特徴を持つ。
NVIDIAはここに、
- 後トレーニング
- 推論最適化
- MoE化
- エージェント用途特化
を施し、“企業向け推論基盤”として再構成した。
Nemotronは、
NVIDIAのGPU戦略と、MetaのオープンLLM思想が交差した地点にある。
時代錯誤か? それとも合理か?
電力不足、データセンター制約、持続可能性。
文明全体で見れば、MoEと巨大モデル路線は明らかに逆風だ。
だが、ビジネスの視点では話が変わる。
- GPU需要を維持できる
- 企業向け高単価市場に刺さる
- 株価インパクトが桁違い
NVIDIAにとって重要なのは、
10年後の電力問題より、今日の市場価値だ。
Nemotron 3 はその判断を、隠しもせず体現している。
まとめ
Nemotron3が「nano」なのに24GBある理由は単純だ。
- nanoとは推論負荷の話
- MoEは巨大モデル延命装置
- Nemotronは会話AIではなく、GPU前提の企業向け推論基盤
- 電力時代とは噛み合わないが、NVIDIAの戦略とは完全に一致している
このモデルが主流になるとは思わない。
だが、NVIDIAがどこを見てAIを作っているのかは、これ以上なく分かりやすい。
Nemotron 3 は製品というより、
時代の分岐点を示す標本だ。


