FlowTune Media

ロボットが「見て、考えて、動く」を1つのAIで — NVIDIA Cosmos 3という物理AIの出発点

ロボットに「この部屋を片付けて」と言ったとき、そのロボットは何を理解しなければならないか。

テーブルの上にあるコップの位置、床に散らばった本の重さ、棚の奥行き。重力がどう物を動かすか。手を伸ばしたときに何が倒れるか。これらすべてを、カメラ映像と自然言語から判断し、実際の動作に変換する——それが「物理AI」と呼ばれる領域だ。

2026年6月1日、NVIDIAがComputex 2026の基調講演で発表したCosmos 3は、この物理AIの問題に正面から取り組んだモデルになる。

「オムニモデル」とは何か

Cosmos 3をひと言で表すなら「見て、考えて、動くを1つにしたAI」だ。

従来の物理AI開発では、視覚認識モデル、世界シミュレーションモデル、行動計画モデルが別々に存在していた。カメラで見る→物理法則をシミュレーションする→動作を決定する、というパイプラインをつなぎ合わせる作業が必要で、それぞれのモデル間のデータ変換がボトルネックだった。

Cosmos 3はこれを1つのMixture-of-Transformers(MoT)アーキテクチャに統合した。内部には2つの「タワー」がある。

  • Reasonerタワー: カメラ映像とテキストから状況を理解し、推論する。ビジョン言語モデルとしての機能
  • Generatorタワー: 物理法則を踏まえたビデオ予測やアクション軌道を生成する。世界がどう動くかを「描く」機能

この2つが1つのモデルの中で連携する。物体の位置を認識しながら、重力や運動エネルギーの影響を予測し、ロボットアームの軌道を同時に計算できる。パイプラインの継ぎ目がなくなる分、遅延が減り、精度も上がる。

Nano と Super、2つのバリアント

実用面で重要なのはモデルサイズの選択肢だ。

Cosmos 3 Nano(16Bパラメータ)は、ワークステーション級のGPU(NVIDIA RTX PRO 6000など)でリアルタイム推論が動く。工場のロボットアームや倉庫の自律搬送ロボットなど、現場に設置したマシンで直接動かすシナリオ向け。

Cosmos 3 Super(64Bパラメータ)は、データセンター向け。より高精度な推論とビデオ生成が可能で、Hopper/Blackwell GPUでの展開を想定している。大規模なシミュレーション環境の構築や、合成データの生成に向く。

どちらもHugging Faceでオープン公開されており、NVIDIA Open Model Licenseのもとで商用利用できる。ポストトレーニング用のスクリプトも付属しているので、自社のロボットや環境に合わせたファインチューニングが可能だ。

物理AIの開発サイクルが変わる

Cosmos 3が解決しようとしている最大の課題は、「実世界のデータが足りない」という問題だ。

ロボティクスの機械学習では、ロボットを実際に動かしてデータを集める必要がある。しかし実機での試行錯誤は時間もコストもかかるし、壊れるリスクもある。だからシミュレーションで合成データを作るのだが、従来の物理シミュレータは現実との乖離(sim-to-real gap)が大きかった。

Cosmos 3は「見てきた世界の物理法則を内部に学習済み」なので、テキストや画像から物理的に妥当なビデオを生成できる。重力で落ちる物体、液体の流れ、衝突時の反応——これらをシミュレータではなくAIが描く。NVIDIAはこれにより「数ヶ月かかっていた物理AIの開発サイクルを数日に短縮する」と主張している。

正直、「数日」はマーケティングの匂いがする。しかし、合成データ生成のコストと時間が桁違いに下がるという方向性自体は筋が通っている。

可能性と限界

Cosmos 3が面白いのは、ロボティクスに閉じない応用が見えることだ。

たとえば自動運転。カメラ映像から「この先の交差点で歩行者が飛び出したらどうなるか」をビデオとして予測し、それに基づいた回避行動を計算できる。実際にAgile Robots、Skild AIなどがCosmos Coalitionのパートナーとして名を連ねている。

製造業の品質検査にも使える。製品が組み立てラインを流れる映像から「この部品の取り付け角度が3度ずれている」と検知し、修正アクションを提案する——そんな一気通貫のワークフローが1つのモデルで完結する可能性がある。

一方で注意点もある。Cosmos 3はあくまで「基盤モデル」であり、特定のロボットや環境でそのまま動くわけではない。実際の展開にはファインチューニングが必須で、そのためのデータと計算資源は依然として必要だ。Nano(16B)でもRTX PRO 6000クラスのGPUが前提であり、安いハードウェアではない。

また、NVIDIAのエコシステムへの依存は避けられない。NIM Microservicesでのデプロイ、DGX Cloudでのトレーニング——すべてがNVIDIAのインフラを前提に設計されている。オープンモデルとはいえ、実質的なロックインが存在する点は認識しておくべきだろう。

ChatGPTからロボットへ——AIの次の戦場

Cosmos 3の発表は、AIの競争軸が「テキスト生成の賢さ」から「物理世界での行動」に移りつつあることを象徴している。

Jensen Huangは基調講演で繰り返し「Physical AI」という言葉を使った。NVIDIAにとって、LLMの推論チップを売るだけでなく、ロボットや自動運転車という「AIが動く場所」のインフラ全体を押さえることが次の成長戦略だ。Cosmos 3はそのための基盤ソフトウェアにあたる。

開発者の視点で見れば、Hugging FaceからモデルをダウンロードしてDiffusersで動かせるという手軽さは評価できる。物理AIに興味があるが何から始めればいいかわからない、というエンジニアにとっては、まず触ってみる価値のあるモデルだと思う。

ただし「ChatGPTが出たときのような衝撃」を期待して触ると、物理AIの地味さに面食らうかもしれない。ロボットの腕が1cm正確に動くかどうかの世界であり、華やかさはない。それでも、この領域が今後5年のAI産業を動かす本丸になる可能性は高い。

関連記事