NVIDIAが550Bのオープンモデルを出した — Nemotron 3 Ultra、「エージェントを何時間も走らせる」ために設計された理由

オープンウェイトの大規模モデルといえば、ここ半年は中国勢の独壇場だった。DeepSeek V4、GLM-5、Qwen 3.7。米国のオープンモデルはLlamaがあるとはいえ、フロンティア級で競えるものが少なかった。

その状況を変えに来たのが、NVIDIAだ。

2026年6月4日、NVIDIAはComputex 2026のキーノートに合わせてNemotron 3 Ultraを公開した。550Bパラメータ、アクティブ55BのMoE構成。Mamba-Transformerハイブリッドアーキテクチャを採用し、長時間のエージェントタスクに特化して設計されている。ライセンスはLinux FoundationのOpenMDW-1.1で、商用利用可能なオープンウェイトだ。

Mamba-Transformerという選択

Nemotron 3 Ultraの技術的な特徴は、純粋なTransformerではなくMambaとのハイブリッドを採用した点にある。

通常のTransformerはコンテキストが長くなるほど計算コストが二次的に増大する。100ターンのエージェントセッションでは、後半になるほどトークン処理が重くなり、コストが膨らむ。Mambaレイヤーはこの問題に対してサブクアドラティック（二次未満）のスケーリングで対応する。長いコンテキストでも計算量が爆発しない。

一方で、正確な情報の検索や参照にはAttentionレイヤーが依然として強い。Nemotron 3 Ultraは大部分をMambaレイヤーで構成しつつ、精密な想起が必要な箇所にだけAttentionレイヤーを配置している。

この設計思想は明確だ。「1回の質問に最高の回答を出す」モデルではなく、「何百ターンも走り続けるエージェントのエンジン」として作られている。

ベンチマークの読み方

独立評価機関Artificial Analysisのインテリジェンスインデックスでスコア48。89モデル中9位。米国発のオープンウェイトモデルとしてはトップだ。

SWE-bench Verifiedでは71.9%を記録している。これは実際のGitHub Issueを解決するベンチマークで、コーディングエージェントとしての実力を測る指標として信頼性が高い。DeepSeek V4 ProやGemini 3.1 Proと比較すると同等かやや下回る水準だが、オープンウェイトという点を考慮すれば健闘している。

注目すべきは推論速度だ。DeepInfraのプレリリースエンドポイントでは300トークン/秒以上が記録されている。Mambaアーキテクチャの恩恵で、同規模のTransformerモデルよりも高速に推論できる。

ただし、率直に言えばClaude Opus 4.8やGPT-5.5といったクローズドモデルにはまだ及ばない。フロンティア性能を求めるなら、APIでクローズドモデルを使うほうが現時点では確実だ。Nemotron 3 Ultraの真価は「オープンウェイトでここまで来た」という点と、エージェント長時間稼働時のコスト効率にある。

4月のSuperとの違い

このメディアでは4月にNemotron 3 Superを紹介した。120B総パラメータ/12Bアクティブの軽量MoEで、specialist activationが特徴だった。

Ultraはそれとはまったく別のモデルだ。総パラメータ数は4.5倍、アクティブパラメータも4.5倍。Mamba-Transformerハイブリッドという新しいアーキテクチャを採用し、SWE-benchスコアも大幅に上がっている。

Superが「コスト効率の良い実用モデル」なら、Ultraは「オープンウェイトのフロンティアを狙うフラッグシップ」だ。用途も異なり、Superは軽量デプロイ向け、Ultraは大規模なエージェントワークロード向けになる。

Nemotron Coalitionという布石

もうひとつ見逃せないのが、Nemotron 3 Ultraと同時に発表された「Nemotron Coalition」だ。Accenture、CrowdStrike、Perplexityが早期採用パートナーとして名を連ねている。

NVIDIAの狙いは明らかで、「GPUだけでなくモデルも使ってくれ」というエコシステム戦略だ。NVIDIAのGPU上でNVIDIAのモデルを動かす — この垂直統合が進めば、推論ワークロードの囲い込みが完成する。

開発者にとっての利点は、NVIDIA NIMマイクロサービスとしてワンクリックでデプロイできることだ。HuggingFace、OpenRouter、ModelScopeでも利用可能なので、NVIDIA以外のインフラでも動かせる。ただし、最適なパフォーマンスを出すにはNVIDIA GPU上での実行が前提になるだろう。

オープンモデル競争の新しい構図

Nemotron 3 Ultraの登場で、オープンウェイトのフロンティアモデル競争に新しい軸が加わった。

中国勢（DeepSeek V4、GLM-5、Qwen 3.7）は圧倒的なコスト効率と性能で先行している。MetaのLlamaシリーズは汎用性で支持を集めている。そこにNVIDIAが「エージェント特化 × ハードウェア最適化」というポジションで参入してきた。

エージェントを何時間も連続で走らせるユースケース — CIパイプラインの自動修正、大規模コードベースのリファクタリング、複数リポジトリにまたがるマイグレーション — では、トークンあたりのコストと長時間稼働の安定性が重要になる。Nemotron 3 Ultraはまさにそこを狙っている。

550Bという巨大なモデルをローカルで動かすのは現実的ではないが、API経由やクラウドGPU上での利用なら十分に選択肢に入る。オープンウェイトであることで、ファインチューニングや社内デプロイも可能だ。米国発のオープンモデルがようやく中国勢と同じ土俵に立った — それだけでも意味のあるリリースだと思う。

NVIDIAが550Bのオープンモデルを出した — Nemotron 3 Ultra、「エージェントを何時間も走らせる」ために設計された理由

Mamba-Transformerという選択

ベンチマークの読み方

4月のSuperとの違い

Nemotron Coalitionという布石

オープンモデル競争の新しい構図

関連記事

Nemotron 3 Super — NVIDIAが"1のコストで4人の専門家"を動かすMoEを解禁

NVIDIA、生成速度2.4倍の「拡散型」言語モデルを無料公開 — Nemotron TwoTowerの仕組み

NVIDIA Agent Toolkit — 「Nemotron 3 Super 120B」とOpenShellで仕掛けるエンタープライズエージェントの標準化