Nemotron 3 Super — NVIDIAが"1のコストで4人の専門家"を動かすMoEを解禁

NVIDIAがオープンウェイトのAIモデルを出す、という話だけなら今さらニュースにならない。Nemotron自体はすでに2世代経ており、オープンモデル界隈の常連だ。だがNemotron 3 Superに目を向けると、ひとつの野心が透けて見える。

「GPUを作る会社」が、いまやエージェント用のオープンモデル市場で、QwenやGemmaと同じ土俵に上がりに来ている。

Nemotron 3 の家族構成

まずNemotron 3ファミリーの全体像を整理する。NVIDIA公式発表によれば、このシリーズは3つのサイズで提供されている。

モデル	パラメータ	想定用途
Nemotron 3 Nano	〜10B前後	エッジ・オンデバイス推論
Nemotron 3 Super	120B総 / 12Bアクティブ（MoE）	本命のエージェント用途
Nemotron 3 Ultra	非公開	研究・フロンティア用途

注目すべきは真ん中のSuperで、これが今回の記事の主題だ。120Bの総パラメータを持ちつつ、推論時には12Bしかアクティブにならない。Mixture-of-Experts（MoE）の典型的な構成だが、Nemotron 3 SuperにはNVIDIA独自の工夫が入っている。

specialist activation — 1の推論コストで4人の専門家が動く

NVIDIAがSuperで強調しているのがspecialist activationと呼ばれる技術だ。通常のMoEは「ゲート関数が1〜2人のエキスパートを選び、その結果だけを出力に使う」という動き方だが、Nemotron 3 Superは1回の推論コストで4人のエキスパートを同時起動できる。

筆者が最初にこの説明を読んだ時は「それMoEのsparse性を放棄してるのでは」と疑ったが、仕組みを追うとむしろ巧妙だった。モデル内部の計算の一部を共有し、エキスパート固有の重みだけを切り替えることで、4人分の専門知識を動員しつつ追加の計算コストを抑えている。結果として、同程度のアクティブパラメータ（12B）を持つ他のMoEと比較して、「出力の引き出しが増えた」状態になる。

実際、NVIDIA自身のベンチマークでは、Nemotron 3 Superは一般的な12BアクティブのMoEモデルに対して5倍のスループット（トークン/秒換算）を達成したとしている。これには当然バイアスがかかるが、少なくともアーキテクチャ側でエージェント用途を狙って最適化してきたことは明確だ。

「エージェント用途」を前面に出してきた意味

Nemotron 3 SuperのポジショニングはクリアにAIエージェント向け。NVIDIAは発表でも「autonomous agents capable of completing tasks with efficiency and high accuracy」という表現を繰り返している。

では実際にエージェント用途で何が変わるのか。3つのポイントがある。

まず、ツール呼び出しの精度が高い。 Nemotron 3 Superはツールコールのフォーマット安定性（JSON schemaの遵守、関数引数の正確さ）に特化してチューニングされている。AIエージェントが失敗する最大の原因が「ツール呼び出しで壊れたJSONを吐く」ことである以上、ここが安定すると実運用のリトライ率が大幅に下がる。

次に、計画と実行の分離が上手い。 複数ステップのタスクで、計画フェーズと実行フェーズを明示的に分けて動作させやすいテンプレートが公式ドキュメントに用意されている。これによって、CrewAIやMastra、LangGraphといった既存のエージェントフレームワークに差し込むときの設計負荷が下がる。

そして、すでに実プロダクトに組み込まれている。 Nemotron 3 SuperはCodeRabbit、Factory、Greptileといった主要なAIコーディングエージェントに早期から統合されている。つまり、「これから試されるモデル」ではなく「すでに本番投入が始まっているモデル」という段階だ。Perplexity、OpenRouter、Hugging Face、build.nvidia.comの各プラットフォームから呼び出せるため、自分のスタックに組み込むハードルも低い。

Qwen 3.5 / Gemma 4との位置関係

エージェント向けオープンモデルの競合は激しい。2026年春時点で注目すべき3モデルを比べると、それぞれの立ち位置が見えてくる。

モデル	アクティブパラメータ	特化	提供元
Nemotron 3 Super	12B（120B総）	エージェント・ツール呼び出し	NVIDIA
Qwen 3.5	〜32B（235B総、MoE）	マルチリンガル・汎用	Alibaba
Gemma 4	〜27B	デバイス・軽量	Google

Qwen 3.5（関連記事）は広範な汎用性で強く、Gemma 4（関連記事）は軽量・スマホ運用という別路線を行っている。Nemotron 3 Superはそのどちらとも重ならない「エージェント特化」という第三の道を選んだ格好だ。

筆者の所感としては、「汎用QA用途ならQwen、オンデバイスならGemma、エージェントならNemotron」という棲み分けが素直に成立している。オープンモデルユーザーは、もはや1つのモデルで全てを賄うのではなく、ユースケースごとに使い分けるフェーズに入っている。

何が実現可能になるか

Nemotron 3 Superが開くユースケースを、少し先まで想像してみる。

1つめは、自社インフラ上で完結する本格エージェント運用。 120Bの総パラメータはホスト側のVRAMを食うが、12Bアクティブという設計のおかげで推論負荷は中規模GPUクラスタで回せる水準だ。中堅企業でも「社内データで閉じたエージェントを動かす」ことが現実的になる。特に金融・医療・法務のようにデータ外部送信に厳しい業界では、OpenAI APIに頼らずエージェントを組めるオプションが増えるのは大きい。

2つめは、コーディングエージェントの分散化。 Cursor/Claude Code/GitHub Copilotといったホスト型サービスへの依存から、「自前で動かすコーディングエージェント」への選択肢が広がる。CodeRabbitやFactoryがNemotron 3 Superを早期採用したことは、この流れの始まりだと読める。オンプレミスでAIコードレビューを完結させたい大企業のニーズに、ようやく現実解が出てきた。

3つめは、GPU購入のロックイン強化。 これはユーザー目線では微妙な話だが、NVIDIAがモデルそのものを出す以上、「Nemotronを最高効率で動かすのはNVIDIAのGPU」という組み合わせが強くなる。AMDやGoogle TPUに対する実質的な差別化カードとして機能する可能性が高い。モデルを無料で配って、その先のハードウェアで稼ぐ、という古典的な戦略だ。

微妙な点・懸念

良い点ばかりではない。正直に気になる点も挙げておく。

まず、日本語能力は未検証な部分が大きい。 NVIDIAの公式ベンチマークは英語タスク中心で、日本語を含む非英語での動作品質は発表時点では不透明だ。Qwen系列が日本語で健闘している現状を考えると、日本語タスクでのNemotron 3 Superの位置取りはコミュニティ検証を待つ必要があるだろう。

次に、MoEの実運用は決して軽くない。 「12Bアクティブだから12B並みのGPUで動く」と単純には言えず、全エキスパート（120B相当）をメモリに載せる必要があるため、VRAM要件はむしろ大きい。オンプレ運用を考える企業は、ここで想定より高いハードウェア投資が必要になる可能性がある。

そして、specialist activationの効果はタスク依存。 4人のエキスパートを動員するメリットは、複雑な推論や多ドメインのタスクで強く出る一方、単純なQAやシンプルなツール呼び出しではオーバーヘッドになる場面もありそうだ。「常に速くなる」ではない点は理解しておきたい。

最後に、ライセンス条件の確認を。 オープンウェイトとはいえ、商用利用条件や再配布の可否はNVIDIAの公開ライセンスに従う。QwenやGemmaが商用利用を大胆に開放している中で、Nemotron 3 Superがどの程度オープンかは事前確認が必要だ。

まとめ

Nemotron 3 Superを触らずに評価するのは難しいが、アーキテクチャの方向性と既存プロダクトへの統合状況を見る限り、「NVIDIAが本気でエージェント用オープンモデル市場に入ってきた」と見ていい。specialist activationが宣伝通りに効けば、オープンモデルの選択肢は確実に豊かになる。

AIエージェントを自前で動かしたい企業・個人にとっては、これまでQwen系列の一択に近かった選択肢にNemotron 3 Superという有力な代替が加わる意味は大きい。今後数ヶ月で出てくるコミュニティベンチマークと日本語検証が、この判断を確定させるだろう。

NVIDIA Nemotron 3 発表

Nemotron 3 Super — NVIDIAが"1のコストで4人の専門家"を動かすMoEを解禁

Nemotron 3 の家族構成

specialist activation — 1の推論コストで4人の専門家が動く

「エージェント用途」を前面に出してきた意味

Qwen 3.5 / Gemma 4との位置関係

何が実現可能になるか

微妙な点・懸念

まとめ

関連記事

NVIDIA Agent Toolkit — 「Nemotron 3 Super 120B」とOpenShellで仕掛けるエンタープライズエージェントの標準化

Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか

GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角