AIがチャットを飛び出して「手」を得た — Alibaba Qwen-Robot Suiteの3モデルが示す身体性AIの現在地

テキストを生成し、画像を描き、動画を作る。ここ数年のAIは「画面の中」で進化を重ねてきた。だが6月16日、Alibabaが発表したQwen-Robot Suiteは、そのAIに「目」と「手」と「想像力」を与えようとしている。

3つの基盤モデルで構成されるこのスイートは、ロボットが物理世界を理解し、移動し、物をつかむための頭脳だ。Qwenチームがテキストモデルで積み上げたオープンソース路線を、身体性AI（Embodied AI）の領域に一気に持ち込んだ。

3つのモデル、3つの役割

Qwen-Robot Suiteは以下の3モデルで構成される。それぞれが独立した役割を持ちながら、組み合わせて動作することでロボットの自律性を実現する。

Qwen-RobotWorld — ロボットの「想像力」を担うビデオワールドモデル。60層のMMDiT（Multi-Modal Diffusion Transformer）アーキテクチャに、凍結済みのQwen2.5-VLエンコーダーを組み合わせている。ロボットが行動を起こす前に、物理シーンがどう変化するかを映像としてシミュレーションする。言語指示を条件として与えると、その指示に沿った未来の映像を生成できる。合成トレーニングデータの生成にも使える点が実用上の鍵だ。

Qwen-RobotNav — 移動を担うVision-Language-Navigationモデル。2B、4B、8Bの3サイズで提供される。指示追従、ポイントゴール、ドッキング、ターゲット追跡、自律走行の5タスクを1つのモデルに統合した。従来はタスクごとに別のモデルを用意する必要があったが、RobotNavは1モデルで「右の棚まで行って」と「赤い車を追いかけて」を両方こなす。

Qwen-RobotManip — 操作を担うVision-Language-Actionモデル。Qwen 3.5-4B VLをベースに構築され、38,000時間以上のオープンソースロボティクスデータで学習した。ロボティクスリポジトリ、人間の操作映像、合成データセットを組み合わせて訓練されている。RoboChallengeジェネラリスト部門でプロセススコア59.83、タスク成功率45%を記録し、1位を獲得した。

Qwen-Omniとの連携が面白い

単体でも注目に値するが、個人的に一番おもしろいと思ったのはQwen-Omniとの連携だ。マルチモーダルモデルのQwen-Omniがシーンを観察し、音声で操作タスクを提案する。RobotManipがそれを即座に実行する。事前定義されたタスクリストは不要で、オープンエンドの指示に柔軟に対応できる。

「目の前のテーブルを片付けて」と言えば、Omniが「まずマグカップを棚に戻して、次にペンをペン立てに入れる」と分解し、RobotManipが実行する。こうした段階的なタスク分解と実行の連携は、家庭用ロボットの実用化に直結する技術だ。

正直な評価 — すごいが、課題も多い

タスク成功率45%という数字は、ベンチマーク1位でありながら「半分以上失敗する」ということでもある。研究レベルでは最先端だが、工場のラインに組み込んで無人運用するにはまだ遠い。

ただし、ここでAlibabaの戦略が効いてくる。38,000時間の学習データはすべてオープンソースだ。プライベートなロボットデータに依存する競合（NVIDIAのGr00tやGoogleのRT-Xなど）とは対照的に、データの透明性とコミュニティ貢献を武器にする。Qwenテキストモデルがオープンウェイトで7億ダウンロードを突破した成功パターンの再現を狙っている。

現時点ではAlibaba Cloud企業顧客向けのパイロットテスト段階。一般開発者がすぐに使えるわけではない。

この先に見えるもの

身体性AIは、NVIDIAがIsaac SimとGr00tで、GoogleがRobotics Transformer（RT）シリーズで先行してきた分野だ。中国勢ではBaidu Apollo（自律走行）やUnitreeなどのハードウェアメーカーが存在感を示していたが、基盤モデル層で真正面から参入するのはAlibabaが初めてに近い。

RobotWorldによる合成データ生成は、ロボット学習のボトルネック（実世界データの収集コスト）を緩和する可能性がある。実環境で1万回ロボットアームを動かす代わりに、RobotWorldで100万パターンの映像を生成して学習させる。物流倉庫やスマート農業のような、同じ動作を大量に繰り返す領域から実用化が始まるだろう。

Qwen 3.7がHugging Faceでトレンド2位を記録し、テキストとコードの分野でAlibabaのオープンモデル戦略は明確に成果を上げている。同じ戦略がロボティクスでも通用するかは、オープンソースコミュニティがどれだけこのモデルを使い倒すかにかかっている。

AIがチャットを飛び出して「手」を得た — Alibaba Qwen-Robot Suiteの3モデルが示す身体性AIの現在地

3つのモデル、3つの役割

Qwen-Omniとの連携が面白い

正直な評価 — すごいが、課題も多い

この先に見えるもの

関連記事

「KFC 2人前、60元以内」で注文完了 — AlibabaのQwenが外部企業にAIエージェントを開放

35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験

AIに「航空券取って」と言ったら、本当に予約が完了した — Qwenアプリが始めた外部連携の全容