Nemotron 3 Super — NVIDIAが"1のコストで4人の専門家"を動かすMoEを解禁
NVIDIAがオープンウェイトのAIモデルを出す、という話だけなら今さらニュースにならない。Nemotron自体はすでに2世代経ており、オープンモデル界隈の常連だ。だがNemotron 3 Superに目を向けると、ひとつの野心が透けて見える。
「GPUを作る会社」が、いまやエージェント用のオープンモデル市場で、QwenやGemmaと同じ土俵に上がりに来ている。
Nemotron 3 の家族構成
まずNemotron 3ファミリーの全体像を整理する。NVIDIA公式発表によれば、このシリーズは3つのサイズで提供されている。
| モデル | パラメータ | 想定用途 |
|---|---|---|
| Nemotron 3 Nano | 〜10B前後 | エッジ・オンデバイス推論 |
| Nemotron 3 Super | 120B総 / 12Bアクティブ(MoE) | 本命のエージェント用途 |
| Nemotron 3 Ultra | 非公開 | 研究・フロンティア用途 |
注目すべきは真ん中のSuperで、これが今回の記事の主題だ。120Bの総パラメータを持ちつつ、推論時には12Bしかアクティブにならない。Mixture-of-Experts(MoE)の典型的な構成だが、Nemotron 3 SuperにはNVIDIA独自の工夫が入っている。
specialist activation — 1の推論コストで4人の専門家が動く
NVIDIAがSuperで強調しているのがspecialist activationと呼ばれる技術だ。通常のMoEは「ゲート関数が1〜2人のエキスパートを選び、その結果だけを出力に使う」という動き方だが、Nemotron 3 Superは1回の推論コストで4人のエキスパートを同時起動できる。
筆者が最初にこの説明を読んだ時は「それMoEのsparse性を放棄してるのでは」と疑ったが、仕組みを追うとむしろ巧妙だった。モデル内部の計算の一部を共有し、エキスパート固有の重みだけを切り替えることで、4人分の専門知識を動員しつつ追加の計算コストを抑えている。結果として、同程度のアクティブパラメータ(12B)を持つ他のMoEと比較して、「出力の引き出しが増えた」状態になる。
実際、NVIDIA自身のベンチマークでは、Nemotron 3 Superは一般的な12BアクティブのMoEモデルに対して5倍のスループット(トークン/秒換算)を達成したとしている。これには当然バイアスがかかるが、少なくともアーキテクチャ側でエージェント用途を狙って最適化してきたことは明確だ。
「エージェント用途」を前面に出してきた意味
Nemotron 3 SuperのポジショニングはクリアにAIエージェント向け。NVIDIAは発表でも「autonomous agents capable of completing tasks with efficiency and high accuracy」という表現を繰り返している。
では実際にエージェント用途で何が変わるのか。3つのポイントがある。
まず、ツール呼び出しの精度が高い。 Nemotron 3 Superはツールコールのフォーマット安定性(JSON schemaの遵守、関数引数の正確さ)に特化してチューニングされている。AIエージェントが失敗する最大の原因が「ツール呼び出しで壊れたJSONを吐く」ことである以上、ここが安定すると実運用のリトライ率が大幅に下がる。
次に、計画と実行の分離が上手い。 複数ステップのタスクで、計画フェーズと実行フェーズを明示的に分けて動作させやすいテンプレートが公式ドキュメントに用意されている。これによって、CrewAIやMastra、LangGraphといった既存のエージェントフレームワークに差し込むときの設計負荷が下がる。
そして、すでに実プロダクトに組み込まれている。 Nemotron 3 SuperはCodeRabbit、Factory、Greptileといった主要なAIコーディングエージェントに早期から統合されている。つまり、「これから試されるモデル」ではなく「すでに本番投入が始まっているモデル」という段階だ。Perplexity、OpenRouter、Hugging Face、build.nvidia.comの各プラットフォームから呼び出せるため、自分のスタックに組み込むハードルも低い。
Qwen 3.5 / Gemma 4との位置関係
エージェント向けオープンモデルの競合は激しい。2026年春時点で注目すべき3モデルを比べると、それぞれの立ち位置が見えてくる。
| モデル | アクティブパラメータ | 特化 | 提供元 |
|---|---|---|---|
| Nemotron 3 Super | 12B(120B総) | エージェント・ツール呼び出し | NVIDIA |
| Qwen 3.5 | 〜32B(235B総、MoE) | マルチリンガル・汎用 | Alibaba |
| Gemma 4 | 〜27B | デバイス・軽量 |
Qwen 3.5(関連記事)は広範な汎用性で強く、Gemma 4(関連記事)は軽量・スマホ運用という別路線を行っている。Nemotron 3 Superはそのどちらとも重ならない「エージェント特化」という第三の道を選んだ格好だ。
筆者の所感としては、「汎用QA用途ならQwen、オンデバイスならGemma、エージェントならNemotron」という棲み分けが素直に成立している。オープンモデルユーザーは、もはや1つのモデルで全てを賄うのではなく、ユースケースごとに使い分けるフェーズに入っている。
何が実現可能になるか
Nemotron 3 Superが開くユースケースを、少し先まで想像してみる。
1つめは、自社インフラ上で完結する本格エージェント運用。 120Bの総パラメータはホスト側のVRAMを食うが、12Bアクティブという設計のおかげで推論負荷は中規模GPUクラスタで回せる水準だ。中堅企業でも「社内データで閉じたエージェントを動かす」ことが現実的になる。特に金融・医療・法務のようにデータ外部送信に厳しい業界では、OpenAI APIに頼らずエージェントを組めるオプションが増えるのは大きい。
2つめは、コーディングエージェントの分散化。 Cursor/Claude Code/GitHub Copilotといったホスト型サービスへの依存から、「自前で動かすコーディングエージェント」への選択肢が広がる。CodeRabbitやFactoryがNemotron 3 Superを早期採用したことは、この流れの始まりだと読める。オンプレミスでAIコードレビューを完結させたい大企業のニーズに、ようやく現実解が出てきた。
3つめは、GPU購入のロックイン強化。 これはユーザー目線では微妙な話だが、NVIDIAがモデルそのものを出す以上、「Nemotronを最高効率で動かすのはNVIDIAのGPU」という組み合わせが強くなる。AMDやGoogle TPUに対する実質的な差別化カードとして機能する可能性が高い。モデルを無料で配って、その先のハードウェアで稼ぐ、という古典的な戦略だ。
微妙な点・懸念
良い点ばかりではない。正直に気になる点も挙げておく。
まず、日本語能力は未検証な部分が大きい。 NVIDIAの公式ベンチマークは英語タスク中心で、日本語を含む非英語での動作品質は発表時点では不透明だ。Qwen系列が日本語で健闘している現状を考えると、日本語タスクでのNemotron 3 Superの位置取りはコミュニティ検証を待つ必要があるだろう。
次に、MoEの実運用は決して軽くない。 「12Bアクティブだから12B並みのGPUで動く」と単純には言えず、全エキスパート(120B相当)をメモリに載せる必要があるため、VRAM要件はむしろ大きい。オンプレ運用を考える企業は、ここで想定より高いハードウェア投資が必要になる可能性がある。
そして、specialist activationの効果はタスク依存。 4人のエキスパートを動員するメリットは、複雑な推論や多ドメインのタスクで強く出る一方、単純なQAやシンプルなツール呼び出しではオーバーヘッドになる場面もありそうだ。「常に速くなる」ではない点は理解しておきたい。
最後に、ライセンス条件の確認を。 オープンウェイトとはいえ、商用利用条件や再配布の可否はNVIDIAの公開ライセンスに従う。QwenやGemmaが商用利用を大胆に開放している中で、Nemotron 3 Superがどの程度オープンかは事前確認が必要だ。
まとめ
Nemotron 3 Superを触らずに評価するのは難しいが、アーキテクチャの方向性と既存プロダクトへの統合状況を見る限り、「NVIDIAが本気でエージェント用オープンモデル市場に入ってきた」と見ていい。specialist activationが宣伝通りに効けば、オープンモデルの選択肢は確実に豊かになる。
AIエージェントを自前で動かしたい企業・個人にとっては、これまでQwen系列の一択に近かった選択肢にNemotron 3 Superという有力な代替が加わる意味は大きい。今後数ヶ月で出てくるコミュニティベンチマークと日本語検証が、この判断を確定させるだろう。
関連記事
NVIDIA Agent Toolkit — 「Nemotron 3 Super 120B」とOpenShellで仕掛けるエンタープライズエージェントの標準化
NVIDIAがGTC 2026で発表したOSSエージェント基盤Agent Toolkitを解説。Nemotron 3 Super 120B、OpenShell、AI-Q、cuOptの4要素と17社の採用背景を整理する。
GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角
Z.ai(智譜AI)のGLM-5.1はSWE-Bench ProでGPT-5.4やClaude Opus 4.6を上回った744Bオープンモデル。8時間連続自律コーディングの仕組み、料金、ベンチマークの裏側を解説する。
AMD PACE — GPU不足時代、EPYCで380トークン/秒が出るという静かな一撃
AMDがLLM推論最適化エンジン「PACE」を公開。5th Gen EPYCでvLLMの1.6〜4.45倍の速度を達成。GPU不足時代のCPU推論という選択肢を整理する。