30Bパラメータなのに3Bしか動かさない — NVIDIAのオープンマルチモーダルモデルの設計が面白い
テキストだけでなく画像も音声も動画も理解するマルチモーダルAI。GPT-5.5やClaude Opus 4.7ならそれは当たり前だが、オープンソースかつローカルで動くモデルとなると話が変わる。
NVIDIAが4月末に公開したNemotron 3 Nano Omniは、その「ローカルで動くマルチモーダル」の最有力候補だ。
30Bのうち3Bだけ動く
このモデルのアーキテクチャが面白い。総パラメータ数は300億(30B)だが、1つのクエリに対して実際にアクティブになるのは30億(3B)だけ。Mixture-of-Experts(MoE)構造により、タスクとモダリティに応じて必要なエキスパートだけが起動する。
さらに内部構造はTransformerだけでなくMambaとのハイブリッド。長いコンテキスト(最大256Kトークン)を効率的に処理するために設計されている。
結果として:
- メモリ使用量: 約25GB RAM(RTX 4090で動作可能)
- 推論速度: B200 GPUで500+ tokens/s(コンカレンシー1)
- スループット: 他のオープンOmniモデル比で最大9倍
30Bの知識量を持ちながら3Bの計算コストで推論する。この「見かけは小さいが中身は大きい」設計が最大の特徴だ。
何ができるのか
Nemotron 3 Nano Omniが対応するモダリティと用途:
画像理解
- ドキュメント分析(PDF、スキャン画像のOCR含む)
- 複数画像の横断推論
- UIスクリーンショットの解析(コンピュータユース向け)
音声処理
- 自動音声認識(ASR)
- 長時間音声の要約・質問応答
- VoiceBenchでオープンモデル最高精度
動画理解
- 長時間動画の内容把握
- シーン分析とタイムスタンプ付き要約
- MediaPerfで最もコスト効率の高いオープン動画理解モデル
すべてが1つのモデルで動く。「画像用にこのモデル、音声用にあのモデル」とパイプラインを組む必要がない。
ベンチマーク上の立ち位置
NVIDIAの発表によると、6つのリーダーボードでトップ:
- MMlongbench-Doc: 複雑ドキュメント理解でトップ
- OCRBenchV2: OCR精度でトップ
- WorldSense: 動画理解
- DailyOmni: 日常動画の音声・映像統合理解
- VoiceBench: 音声理解
- MediaPerf: コスト効率
同じオープンソースのマルチモーダルモデルであるGemma 4(Google)やQwen 3.6(Alibaba)と比較すると、Nemotron 3 Nano Omniは「音声・動画込みの統合処理」で優位に立っている。テキスト+画像だけならGemma 4が強い場面もあるが、音声が入ると選択肢が一気に絞られる。
実際にどう使えるか
利用可能なプラットフォーム:
- Hugging Face: 重み・データセット・レシピすべて公開(Apache 2.0ライセンス)
- NVIDIA NIM: マイクロサービスとしてデプロイ可能
- OpenRouter: API経由でアクセス
- vLLM / TensorRT-LLM: 自前サーバーでの推論
エッジAIエージェントの「目と耳」として使うシナリオが最も現実的だろう。たとえば:
- 製造ラインの監視カメラ映像をリアルタイムで分析し、異常を音声アラートで報告するエージェント
- 会議の映像+音声をまるごと入力し、議事録と次のアクションアイテムを生成
- ドライブレコーダーの映像から事故状況を分析するシステム
25GBで動くということは、データセンターだけでなくエッジデバイスでの運用も視野に入る。オンプレミス環境でマルチモーダルAIを使いたい企業にとっては、ほぼ唯一の現実的なオープンソース選択肢かもしれない。
正直な評価
良い点:
- MoE設計により、大きなモデルのパフォーマンスを小さな計算コストで実現
- 音声を含む真のマルチモーダル。テキスト+画像だけのモデルとは一線を画す
- 完全オープンソースでカスタマイズ可能
- NVIDIA GPUに最適化されたFP8/NVFP4量子化対応
微妙な点:
- 25GBはコンシューマー向けとしてはまだ重い(RTX 4090が必要)
- エージェント動作の安定性は実装次第(モデル単体はツールではない)
- 日本語性能の検証情報がまだない
- 256Kコンテキストは長いが、1時間超の動画はトークン数的に厳しい
「ローカルで動くGPT-4o的なもの」を求める開発者にとって、Nemotron 3 Nano Omniは2026年5月時点で最も合理的な選択肢の一つだ。MoEの「必要な分だけ動かす」設計思想は、今後のエッジAIのスタンダードになる可能性がある。
関連記事
OSSの自動化ツールがSAPに認められた — n8nの評価額が8,000億円に倍増した背景
SAPがn8nに戦略投資し評価額$5.2B(約8,000億円)に倍増。Joule Studioへのネイティブ統合の意味とZapier・Makeとの差を解説する。
Cline SDKが出た — 500万人が使うVS Code拡張の「中身」がそのままオープンソースに
Cline SDKはVS Code拡張の内部エージェントランタイムをオープンソース化したもの。アーキテクチャ、プラグイン、Kanbanボード、Claude Code SDKとの違いを解説。
ソースコードを外に出さずにAIコーディングエージェントを動かす — Coder Agentsという選択肢
Coder Agentsはセルフホスト型・モデル非依存のAIコーディングエージェント。コードを外部に送信せず自社インフラで完結する仕組みと、Cursor・Claude Codeとの違いを整理する。