FlowTune Media

ロボットが片手で卵を割り、20工程の料理を作った — Genesis AIの基盤モデルGENE-26.5が見せた世界

20工程の料理。片手での卵割り。ルービックキューブ。ピアノ演奏。ピペットを使った精密なラボ実験。

これらを1つのAIモデルと1種類のロボットハンドでこなすデモ映像が、5月6日に公開された。作ったのは仏スタートアップGenesis AI。シード資金1億500万ドル(約155億円)を調達し、ステルスから出てきた企業の最初の成果物が、このGENE-26.5だ。

Genesis AI GENE-26.5

なぜこれが話題になっているのか

ロボットの器用さに関するデモは過去にもあった。しかしGENE-26.5が注目を集めている理由は、個別タスクごとに専用モデルを作ったのではなく、1つの基盤モデルが複数の複雑なタスクをこなしている点にある。

料理からラボ作業、楽器演奏まで、まったく異なる文脈の作業を同一のモデル・ハードウェア・制御スタックで処理している。タスクごとの微調整も1時間未満のロボットデータ(200エピソード以下)で済むという。

TechCrunchやFox Newsなど大手メディアが一斉に取り上げ、Khosla Venturesの出資先としても注目されている。

技術の中身

GENE-26.5のアーキテクチャはflow matchingベースで、言語・視覚・固有受容覚・触覚・行動の多モダリティ入力を処理する。制御、シミュレーション、状態推定、逆動力学、ゴール推論、レンダリング、価値推定を条件付きクエリとして統一的に扱う設計だ。

端的に言えば、「見て、触って、考えて、動く」の全工程を1つのモデルに押し込んでいる。

データ収集の工夫が面白い

Genesis AIは独自のデータ収集グローブを開発している。電磁場ベースの指トラッキングと高密度の触覚センシングを備え、人間が装着して作業するだけでロボットの学習データが取れる。従来の遠隔操作方式と比べてハードウェアコストが100分の1、データ収集効率が5倍だという。

20万時間以上のデータを3つのソースから集めている。グローブによる高精度データ、一人称視点の自然な動作映像、そしてインターネット規模の第三者視点映像。この「質と量の異なるデータを混ぜて使う」アプローチが、モデルの汎用性に寄与しているようだ。

シミュレーションからの直接転移

Genesis AIのシミュレーション環境「Genesis World」は、シミュレーション上で学習したスキルを実機にゼロショットで転移できると主張している。シミュレーション共同学習データなしで実機動作が可能とのことで、2,700時間相当の閉ループ評価をシミュレーションで実施したという。

制御スタックの性能も具体的な数字が出ている。エンドツーエンドのレイテンシは3ミリ秒、追従誤差は20mmから2mmに10倍改善、応答レイテンシは80msから9msに短縮。

ロボットハンドという「ボトルネック」への回答

ロボティクスの世界では長年、「手」がボトルネックだった。人間の手は26の骨、27の関節、30以上の筋肉で構成されており、この複雑さを再現するハードウェアは高額で壊れやすいものが多い。

Genesis AIが作ったのは、人間の手の形状と機能をできるだけ忠実に模倣したロボットハンドだ。人間の手と1:1:1でマッピングできる設計にすることで、グローブで収集した動作データをそのままロボットに移せる。これにより「人間の動きを見せれば、ロボットが同じ動きを再現できる」という理想に近づいている。

冷静に見るべき点

デモは確かに印象的だが、いくつか留意点がある。

まず、デモの環境は制御された実験室だ。現実の家庭やオフィスにはデモにない変数が無数にある。テーブルの高さが違う、照明が変わる、想定外の物が置いてあるといった状況でどこまで対応できるかは未知数だ。

次に、価格とスケール。$105Mのシード資金はロボティクスの世界では大きいが、量産に至るまでにはさらに桁違いの資金が必要になる。現時点でGENE-26.5は研究開発段階であり、一般消費者が手にできるプロダクトではない。

そして最も重要なのが、「1時間未満の微調整で新タスクを学習」という主張の汎用性だ。デモで見せたタスクは印象的だが、これがどこまで多様なタスクに拡張できるかは今後の検証次第だろう。

この先に何が見えるか

とはいえ、Genesis AIが示した方向性は示唆に富む。

もしGENE-26.5のアプローチがスケールすれば、ロボットの導入コストは劇的に下がる可能性がある。従来はタスクごとに専門のロボットシステムを設計・調整する必要があった。それが「1つの基盤モデルに新しいタスクを1時間教えるだけ」になれば、中小規模の工場や研究室にもロボット導入の道が開ける。

データ収集グローブのコストが100分の1というのも重要だ。ロボット学習データの収集は、これまで高額な遠隔操作装置と専門のオペレーターが必要だった。グローブを装着した現場作業者がそのまま「先生」になれるなら、データ収集のボトルネックが外れる。介護や食品加工など、熟練工の手技がモノを言う現場への応用が視野に入ってくる。

Eric SchmidtやDaniela Rus(MIT CSAILのディレクター)がアドバイザーに名を連ねている点も、技術的な信頼性を裏付ける材料にはなる。ただし、投資家の名前とプロダクトの完成度は別物だ。今後1〜2年の実証実験の結果が、この技術の本当の価値を決めるだろう。

関連記事