FlowTune Media

スマホのカメラに映るものをAIが理解して動く — ウェアラブル対応の視覚エージェントSuperPowers

Meta Display Glassesをかけて「この部屋の配線、どこがおかしいか教えて」と聞く。AIがカメラ越しにリアルタイムで映像を分析し、問題箇所を特定して修理手順を音声で返す。

こんな使い方が、実はもう動いている。

SuperPowers AIは、スマートフォンやウェアラブルデバイスのカメラ映像をリアルタイムでAIに読ませ、音声だけで複雑なマルチステップの視覚タスクを実行させる「ambient visual agent」だ。4月16日にProduct Huntで285 upvotesを獲得し、ランチ日の2位に入った。

「映像を理解するAI」の何が新しいのか

ChatGPTやClaudeにも画像認識はある。写真を撮ってアップロードすれば、何が映っているかを教えてくれる。

SuperPowersが違うのは、常時接続であることだ。カメラを意識的に起動し、写真を撮り、アプリに送り、結果を待つ——という一連のステップが省略される。デバイスのカメラが常に見ていて、音声で指示を出した瞬間にAIが映像を理解して行動する。

この「意図的に起動する」と「常に見ている」の差は、使ってみると意外に大きい。スマホを取り出して写真を撮る行為は、結局のところ数秒の手間だ。だが、その数秒の摩擦があるせいで「まあいいか、自分で考えよう」と思ってしまう場面は少なくない。SuperPowersは、その摩擦をゼロにしようとしている。

対応デバイスと動作の仕組み

現時点での対応デバイスは以下のとおりだ。

  • Meta Display Glasses — かけるだけで常時カメラが有効。最も自然な使用体験
  • Apple Vision Pro — 空間コンピューティングとの組み合わせ
  • Android XR(Luma Ultra等) — Googleのウェアラブルプラットフォーム
  • スマートフォン(Mac/Android) — 既存のスマホでも利用可能
  • SMS / FaceTime / WhatsApp ビデオ通話 — 通話越しにAIが映像を見る

技術的には、デバイスのカメラ映像をリアルタイムでAIモデルに送り、音声コマンドと突き合わせて推論・実行する構造だ。面白いのは、Claude Maxのような高額なモデルを使わず、安価なモデルでも動作するよう最適化されている点。月額$200のサブスクなしで「computer use」的な体験を提供しようとしている。

声だけでエージェントを「プログラム」する

SuperPowersのもう一つの特徴は、音声で指示を編集・保存できること。たとえば「毎朝、テック系ニュースの要約を3つ取得してメールで送って」という指示を一度作れば、次回からは「ニュースお願い」の一言で同じワークフローが走る。

コードを一行も書かずに、音声だけでエージェントの行動パターンを定義できる。これを彼らは「vibe-coding agents」と呼んでいる。ソフトウェアエンジニアリングの文脈で使われる「vibe coding」を、非エンジニアの日常に持ち込んだ形だ。

もしこの仕組みがもう少し成熟したら、たとえば在宅介護の現場でヘルパーがスマートグラスをかけて「この薬の飲み合わせ、問題ないか確認して」と聞くだけで回答が返ってくる——といったユースケースが見えてくる。実際にProduct Huntのコメント欄でも、家の修理や配線チェックといった非テック系の実用例が挙がっていた。

正直なところ

コンセプトは刺激的だが、現時点では「面白い実験」の域にある。

まず、常時カメラをオンにするということは、プライバシーの問題が避けられない。自分だけならともかく、周囲の人間が映り込む環境での利用は、社会的な受容がまだ追いついていない。Meta Display Glassesでさえ、カメラの存在を気にする人は多い。

次に、リアルタイム映像の処理には帯域と遅延の問題がある。Wi-Fi環境下では問題なくても、外出先のモバイル回線でどこまで快適に動くかは未知数だ。

そして、対応デバイスの普及率の問題。Meta Display GlassesもApple Vision Proも、まだ一般消費者に広く普及しているとは言い難い。スマホで使えるのは強みだが、スマホだと「常時カメラオン」の体験が薄れるため、本来の価値を発揮しにくい。

とはいえ、AppleのAIスマートグラスが2026年末〜2027年に登場するとの観測も出ている。ウェアラブルAIの土壌が整い始めている今、SuperPowersのようなソフトウェア側の実験が先に走っていることには意味がある。ハードウェアが追いついたときに、すでに動くソフトがある状態——それがこのツールの賭けだ。

始め方

getsupers.comから無料で始められる。セットアップの補助はDiscordサーバーで提供されている。Meta Display GlassesやApple Vision Proを持っていなくても、スマホのカメラで試せる。

まずはスマホで「目の前のものについて質問する」体験を試してみて、それが日常で使いたいと思えるかどうかを判断するのがいいだろう。

関連記事