FlowTune Media

ロボットが「計器を読む」精度が23%から93%に跳ねた——Google DeepMindの新モデルが示した境界

Gemini Robotics-ER 1.6

ロボットが工場の計器を読み間違える時代が、ひっそりと終わりかけている。

Google DeepMindが2026年4月14日にリリースした「Gemini Robotics-ER 1.6」は、エンボディドAI(身体を持つAI)にとっての地味だが決定的なアップデートだ。派手な人型ロボットのデモではなく、ボイラー室の圧力計を読む、見回り中に水たまりに気づく——そういう「現場のつまらない仕事」を、機械が人間より正確にこなせるようになりつつある。

最も話題になっている数字を先に出す。計器読み取り(instrument reading)の精度が、Gemini Robotics-ER 1.5の23%から、1.6では93%へ。

300%増ではなく、4倍だ。ER 1.5を試して「まだ無理だな」と判断していた現場担当者は、半年で前提を作り直す必要が出た。

何が新しくなったか

DeepMindの公式ブログによると、Gemini Robotics-ERシリーズはロボットのための「エンボディド推論」モデルだ。空間を理解し、タスクを計画し、達成したかどうかを判定する。今回の1.6では、以下の数字が報告されている。

  • 指差し・カウント(pointing/counting): 成功率 80%
  • 単一視点での検出(single-view successful detection): 90%
  • 複数視点での検出(multi-view successful detection): 84%
  • Agentic Visionによる計器読み取り: 93%(ER 1.5は 23%)

特に「複数視点での検出」が地味に効く。倉庫で動き回るロボットは、同じ物体を別の角度から何度も見る。人間なら「あ、さっき見たやつね」と頭の中で接続できるが、ロボットは別物として処理しがちだった。84%という数字は、まだ完璧ではないが、過去と比較すれば「使い物になるレベル」に入ってきた。

ER 1.6 はGemini API経由でGoogle AI Studioから開発者に提供されている。ロボットメーカーは自前のロボットにこのモデルを組み込めるし、研究者は試作環境で叩ける。

Spotが「計器を読む犬」になった

このアップデートを最も具体的に示しているのが、Boston DynamicsとのSpot連携だ。

Boston Dynamicsのブログによると、Boston Dynamics Orbit AIVI-Learningは2026年4月8日から、Gemini Robotics-ER 1.6を組み込んだバージョンが全顧客に展開された。Spot(あの有名な犬型ロボット)が工場・プラント・倉庫を巡回し、計器を見て、数値を読み取り、サーバーに送り返す。

具体的なタスクには以下が含まれる。

  • 5Sコンプライアンス監査(整理・整頓・清掃・清潔・しつけのチェック)
  • サイトグラスの液面読み取り(0〜100%で液体の充填率を測定)
  • 円形圧力計、垂直レベルインジケーター、デジタル表示の読み取り
  • パレットの正確なカウント
  • 床の水たまり検出
  • レバー位置の検出、物体の存在確認

ここで重要なのは、これらが「人間がやる必要はないが、人間がやらないと事故になる」タイプの仕事だということ。プラント運転員の朝のルーチンは、まさに「装置を見て回って数値をメモする」だ。Spot + Gemini Robotics-ER 1.6 は、その朝のルーチンを24時間休まず実行する。

筆者の感覚として、これは「人型ロボットがコーヒーを淹れてくれる未来」よりも、産業界にとって圧倒的に重要な進歩だと思う。後者は10年後の話だが、前者はすでに動いている。

なぜ「計器読み取り」が技術的に難しかったのか

ピンとこない読者のために、計器読み取りがなぜ23%しか取れていなかったのかを整理しておく。

ロボットがカメラで圧力計を見るとき、いくつもの問題が同時に発生する。

1. 視角の問題。 カメラが計器の真正面に来るとは限らない。45度から見た円形ゲージの針は、画像処理的には大きく歪む。 2. 照明の問題。 工場の照明は均一じゃない。ガラス面のハイライトが針を消す。 3. 同時に複数の計器がある。 どれが「読むべき」計器か、文脈で判断する必要がある。 4. 表記の多様性。 デジタル表示と針式が混在し、目盛りの単位もバラバラ。

これらを一個ずつチューニングしていた既存のコンピュータビジョン手法は、現場ごとに調整作業が必要で、とにかくスケールしなかった。Gemini Robotics-ER 1.6 がやったのは、汎用的な視覚+空間推論モデルでこれらをまとめて処理することだ。23%→93% は、個別アルゴリズムの積み上げでは到達できなかった水準だろう。

「フィジカルAI元年」はもう来ているのか

2026年に入ってから、フィジカルAI関連のリリースが急に増えている。Figure AIの人型ロボットDimensional OSのDimOSNVIDIA ACE、そして今回のGemini Robotics-ER 1.6。

それぞれ目指すレイヤーは違う。Figureはロボット本体、DimOSはロボットOS、NVIDIA ACEはゲームNPCの動き、DeepMindは推論モデル。共通しているのは「LLMを身体に接続する」という方向性だ。

ここで、いくつか実現可能性のある未来を考えてみたい。

ひとつめ。 プラント・倉庫業の人手不足が、ロボット×汎用AIの組み合わせで「我慢できる」レベルまで埋まる。これは2027〜2028年の話だと思う。Spotの単価がまだ高いので、まずは中規模以上のプラントから入る。日本の地方の中小工場まで降りてくるのはもっと先になる。

ふたつめ。 保守点検業務の「24時間化」が当たり前になる。これまでは夜間に人間を配置するコストがネックで、計器の異常検知は朝に発見されることが多かった。ロボットが夜中も巡回するなら、トラブルの早期発見がデフォルトになる。事故統計に効いてくる。

3つめ。 これは少し条件付きで、新興国のインフラ運用がまるごと変わる可能性。電力会社・水道会社のような公共インフラを、人間の熟練工が足りない国で「ロボット+遠隔制御+汎用AI」で立ち上げる流れが見える。実現には機体価格の劇的な低下が必要だが、もしそこに到達したら、インフラ運用の国際分業が再編されるかもしれない。

これら3つに共通するのは「派手な人型ロボット」が主役じゃないことだ。地味で、正確で、文句を言わない作業ロボットの普及こそが、Gemini Robotics-ER 1.6 のような推論モデルの本当の価値を引き出す。

微妙な点

正直に書いておくと、不安要素もある。

1. 「93%」は限定された条件下の数字だ。 DeepMindのブログは具体的なベンチマーク条件を全部開示しているわけではない。実際の工場環境はもっと汚れていて、雨でガラスが曇り、照明がフリッカーする。本番環境で93%が出るかは別の話だ。

2. ロボット側のコストが下がっていない。 Spotは数百万円〜数千万円の機体だ。Gemini Robotics-ER 1.6 が無料同然で使えるようになっても、ロボット本体が高い限り、普及スピードには上限がある。

3. 安全とプライバシーの議論がほぼゼロ。 ロボットが工場を24時間徘徊し、画像を撮り続けるということは、労働者のプライバシー問題と直接ぶつかる。欧米の労働組合は遅れずに反応するだろう。日本の議論はまだ始まっていない。

4. Gemini ファミリーへのロックイン。 今回のER 1.6 はGemini APIに統合されている。将来的にBoston Dynamicsや他のロボットメーカーは、モデル選択の自由度をどこまで保つかを問われる。Anthropic ClaudeやMistralがロボット向けに同等のモデルを出してきた時、互換層がどう作られるかが鍵になる。

まとめ

Gemini Robotics-ER 1.6 は派手なリリースではない。人型ロボットがダンスするような映像は出てこない。しかし、計器読み取り精度が4倍に跳ねたという数字は、産業現場の自動化の景色を確実に変える。

「ロボットが計器を読む」ような仕事は、AIにとって最後まで難しいと思われていた領域だ。Gemini が今回、その壁を半分以上崩した。Boston Dynamics Spotとの連携でリリース当日から実用フェーズに入っているのも、戦略的にうまい。

人型ロボットの未来は2030年代の話だが、産業ロボットの未来は2026年に動き始めた。Gemini Robotics-ER 1.6 はその静かな転換点として記憶されるかもしれない。

参考:

関連記事