NVIDIAが550Bのオープンモデルを出した — Nemotron 3 Ultra、「エージェントを何時間も走らせる」ために設計された理由
オープンウェイトの大規模モデルといえば、ここ半年は中国勢の独壇場だった。DeepSeek V4、GLM-5、Qwen 3.7。米国のオープンモデルはLlamaがあるとはいえ、フロンティア級で競えるものが少なかった。
その状況を変えに来たのが、NVIDIAだ。
2026年6月4日、NVIDIAはComputex 2026のキーノートに合わせてNemotron 3 Ultraを公開した。550Bパラメータ、アクティブ55BのMoE構成。Mamba-Transformerハイブリッドアーキテクチャを採用し、長時間のエージェントタスクに特化して設計されている。ライセンスはLinux FoundationのOpenMDW-1.1で、商用利用可能なオープンウェイトだ。
Mamba-Transformerという選択
Nemotron 3 Ultraの技術的な特徴は、純粋なTransformerではなくMambaとのハイブリッドを採用した点にある。
通常のTransformerはコンテキストが長くなるほど計算コストが二次的に増大する。100ターンのエージェントセッションでは、後半になるほどトークン処理が重くなり、コストが膨らむ。Mambaレイヤーはこの問題に対してサブクアドラティック(二次未満)のスケーリングで対応する。長いコンテキストでも計算量が爆発しない。
一方で、正確な情報の検索や参照にはAttentionレイヤーが依然として強い。Nemotron 3 Ultraは大部分をMambaレイヤーで構成しつつ、精密な想起が必要な箇所にだけAttentionレイヤーを配置している。
この設計思想は明確だ。「1回の質問に最高の回答を出す」モデルではなく、「何百ターンも走り続けるエージェントのエンジン」として作られている。
ベンチマークの読み方
独立評価機関Artificial Analysisのインテリジェンスインデックスでスコア48。89モデル中9位。米国発のオープンウェイトモデルとしてはトップだ。
SWE-bench Verifiedでは71.9%を記録している。これは実際のGitHub Issueを解決するベンチマークで、コーディングエージェントとしての実力を測る指標として信頼性が高い。DeepSeek V4 ProやGemini 3.1 Proと比較すると同等かやや下回る水準だが、オープンウェイトという点を考慮すれば健闘している。
注目すべきは推論速度だ。DeepInfraのプレリリースエンドポイントでは300トークン/秒以上が記録されている。Mambaアーキテクチャの恩恵で、同規模のTransformerモデルよりも高速に推論できる。
ただし、率直に言えばClaude Opus 4.8やGPT-5.5といったクローズドモデルにはまだ及ばない。フロンティア性能を求めるなら、APIでクローズドモデルを使うほうが現時点では確実だ。Nemotron 3 Ultraの真価は「オープンウェイトでここまで来た」という点と、エージェント長時間稼働時のコスト効率にある。
4月のSuperとの違い
このメディアでは4月にNemotron 3 Superを紹介した。120B総パラメータ/12Bアクティブの軽量MoEで、specialist activationが特徴だった。
Ultraはそれとはまったく別のモデルだ。総パラメータ数は4.5倍、アクティブパラメータも4.5倍。Mamba-Transformerハイブリッドという新しいアーキテクチャを採用し、SWE-benchスコアも大幅に上がっている。
Superが「コスト効率の良い実用モデル」なら、Ultraは「オープンウェイトのフロンティアを狙うフラッグシップ」だ。用途も異なり、Superは軽量デプロイ向け、Ultraは大規模なエージェントワークロード向けになる。
Nemotron Coalitionという布石
もうひとつ見逃せないのが、Nemotron 3 Ultraと同時に発表された「Nemotron Coalition」だ。Accenture、CrowdStrike、Perplexityが早期採用パートナーとして名を連ねている。
NVIDIAの狙いは明らかで、「GPUだけでなくモデルも使ってくれ」というエコシステム戦略だ。NVIDIAのGPU上でNVIDIAのモデルを動かす — この垂直統合が進めば、推論ワークロードの囲い込みが完成する。
開発者にとっての利点は、NVIDIA NIMマイクロサービスとしてワンクリックでデプロイできることだ。HuggingFace、OpenRouter、ModelScopeでも利用可能なので、NVIDIA以外のインフラでも動かせる。ただし、最適なパフォーマンスを出すにはNVIDIA GPU上での実行が前提になるだろう。
オープンモデル競争の新しい構図
Nemotron 3 Ultraの登場で、オープンウェイトのフロンティアモデル競争に新しい軸が加わった。
中国勢(DeepSeek V4、GLM-5、Qwen 3.7)は圧倒的なコスト効率と性能で先行している。MetaのLlamaシリーズは汎用性で支持を集めている。そこにNVIDIAが「エージェント特化 × ハードウェア最適化」というポジションで参入してきた。
エージェントを何時間も連続で走らせるユースケース — CIパイプラインの自動修正、大規模コードベースのリファクタリング、複数リポジトリにまたがるマイグレーション — では、トークンあたりのコストと長時間稼働の安定性が重要になる。Nemotron 3 Ultraはまさにそこを狙っている。
550Bという巨大なモデルをローカルで動かすのは現実的ではないが、API経由やクラウドGPU上での利用なら十分に選択肢に入る。オープンウェイトであることで、ファインチューニングや社内デプロイも可能だ。米国発のオープンモデルがようやく中国勢と同じ土俵に立った — それだけでも意味のあるリリースだと思う。
関連記事
Nemotron 3 Super — NVIDIAが"1のコストで4人の専門家"を動かすMoEを解禁
NVIDIAのNemotron 3 Superは120B総/12BアクティブのMoE開放モデル。specialist activationの仕組み、エージェント用途での実力、Qwen 3.5やGemma 4との位置関係を整理する。
NVIDIA Agent Toolkit — 「Nemotron 3 Super 120B」とOpenShellで仕掛けるエンタープライズエージェントの標準化
NVIDIAがGTC 2026で発表したOSSエージェント基盤Agent Toolkitを解説。Nemotron 3 Super 120B、OpenShell、AI-Q、cuOptの4要素と17社の採用背景を整理する。
GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角
Z.ai(智譜AI)のGLM-5.1はSWE-Bench ProでGPT-5.4やClaude Opus 4.6を上回った744Bオープンモデル。8時間連続自律コーディングの仕組み、料金、ベンチマークの裏側を解説する。