30Bパラメータなのに3Bしか動かさない — NVIDIAのオープンマルチモーダルモデルの設計が面白い

テキストだけでなく画像も音声も動画も理解するマルチモーダルAI。GPT-5.5やClaude Opus 4.7ならそれは当たり前だが、オープンソースかつローカルで動くモデルとなると話が変わる。

NVIDIAが4月末に公開したNemotron 3 Nano Omniは、その「ローカルで動くマルチモーダル」の最有力候補だ。

30Bのうち3Bだけ動く

このモデルのアーキテクチャが面白い。総パラメータ数は300億（30B）だが、1つのクエリに対して実際にアクティブになるのは30億（3B）だけ。Mixture-of-Experts（MoE）構造により、タスクとモダリティに応じて必要なエキスパートだけが起動する。

さらに内部構造はTransformerだけでなくMambaとのハイブリッド。長いコンテキスト（最大256Kトークン）を効率的に処理するために設計されている。

結果として:

メモリ使用量: 約25GB RAM（RTX 4090で動作可能）
推論速度: B200 GPUで500+ tokens/s（コンカレンシー1）
スループット: 他のオープンOmniモデル比で最大9倍

30Bの知識量を持ちながら3Bの計算コストで推論する。この「見かけは小さいが中身は大きい」設計が最大の特徴だ。

何ができるのか

Nemotron 3 Nano Omniが対応するモダリティと用途:

画像理解

ドキュメント分析（PDF、スキャン画像のOCR含む）
複数画像の横断推論
UIスクリーンショットの解析（コンピュータユース向け）

音声処理

自動音声認識（ASR）
長時間音声の要約・質問応答
VoiceBenchでオープンモデル最高精度

動画理解

長時間動画の内容把握
シーン分析とタイムスタンプ付き要約
MediaPerfで最もコスト効率の高いオープン動画理解モデル

すべてが1つのモデルで動く。「画像用にこのモデル、音声用にあのモデル」とパイプラインを組む必要がない。

ベンチマーク上の立ち位置

NVIDIAの発表によると、6つのリーダーボードでトップ:

MMlongbench-Doc: 複雑ドキュメント理解でトップ
OCRBenchV2: OCR精度でトップ
WorldSense: 動画理解
DailyOmni: 日常動画の音声・映像統合理解
VoiceBench: 音声理解
MediaPerf: コスト効率

同じオープンソースのマルチモーダルモデルであるGemma 4（Google）やQwen 3.6（Alibaba）と比較すると、Nemotron 3 Nano Omniは「音声・動画込みの統合処理」で優位に立っている。テキスト+画像だけならGemma 4が強い場面もあるが、音声が入ると選択肢が一気に絞られる。

実際にどう使えるか

利用可能なプラットフォーム:

Hugging Face: 重み・データセット・レシピすべて公開（Apache 2.0ライセンス）
NVIDIA NIM: マイクロサービスとしてデプロイ可能
OpenRouter: API経由でアクセス
vLLM / TensorRT-LLM: 自前サーバーでの推論

エッジAIエージェントの「目と耳」として使うシナリオが最も現実的だろう。たとえば:

製造ラインの監視カメラ映像をリアルタイムで分析し、異常を音声アラートで報告するエージェント
会議の映像+音声をまるごと入力し、議事録と次のアクションアイテムを生成
ドライブレコーダーの映像から事故状況を分析するシステム

25GBで動くということは、データセンターだけでなくエッジデバイスでの運用も視野に入る。オンプレミス環境でマルチモーダルAIを使いたい企業にとっては、ほぼ唯一の現実的なオープンソース選択肢かもしれない。

正直な評価

良い点:

MoE設計により、大きなモデルのパフォーマンスを小さな計算コストで実現
音声を含む真のマルチモーダル。テキスト+画像だけのモデルとは一線を画す
完全オープンソースでカスタマイズ可能
NVIDIA GPUに最適化されたFP8/NVFP4量子化対応

微妙な点:

25GBはコンシューマー向けとしてはまだ重い（RTX 4090が必要）
エージェント動作の安定性は実装次第（モデル単体はツールではない）
日本語性能の検証情報がまだない
256Kコンテキストは長いが、1時間超の動画はトークン数的に厳しい

「ローカルで動くGPT-4o的なもの」を求める開発者にとって、Nemotron 3 Nano Omniは2026年5月時点で最も合理的な選択肢の一つだ。MoEの「必要な分だけ動かす」設計思想は、今後のエッジAIのスタンダードになる可能性がある。

NVIDIA公式ブログ / Hugging Face

30Bパラメータなのに3Bしか動かさない — NVIDIAのオープンマルチモーダルモデルの設計が面白い

30Bのうち3Bだけ動く

何ができるのか

ベンチマーク上の立ち位置

実際にどう使えるか

正直な評価

関連記事

90ミリ秒でAIの実行環境を立ち上げる。Daytonaが見せた「サンドボックスの年」の実力

AIにWebを読ませるならまずこれ — GitHub13万スターのFirecrawlが支持される理由

LangGraph vs CrewAI vs Mastra 比較【2026年版】AIエージェントフレームワーク3強の選び方