APIもない10年前のソフトすら動かせる — Grok Computerという「画面を見るAI」の異質さ

Perplexity ComputerもClaude Coworkも、基本的には「APIやアクセシビリティ情報を使ってアプリを操作する」設計だ。では、APIが存在しないソフトウェアはどうするのか。
xAIの答えは力技だった。画面のピクセルをそのまま読む。
画面を「見て」操作する
4月13日にプライベートベータが始まったGrok Computerは、PCの画面映像を直接処理して操作を行うAIエージェントだ。ブラウザ、オフィスソフト、ターミナル、デザインツール——アプリの種類を問わない。APIもアクセシビリティツリーも使わず、人間と同じように「画面を見て、マウスを動かし、キーボードを打つ」。
直近5秒間の画面映像を常時処理し、アプリケーションの状態を把握しているという。つまり、ただスクリーンショットを撮って判断するのではなく、画面の変化を追いかけながら操作している。
これが意味することは大きい。10年前の業務用ソフトウェア、社内でしか使えないレガシーシステム、APIを公開していないデスクトップアプリ——こうした「AIの恩恵を受けにくかったソフトウェア」に、初めてAIの手が届く可能性がある。
Perplexity Computer、Claude Coworkとは何が違うのか
デスクトップAIエージェントは、ここ数週間で一気に選択肢が増えた。整理すると:
Claude Coworkは、Anthropicが提供するデスクトップエージェント。ファイル操作やドキュメント作成が中心で、非エンジニアでも扱いやすい設計。Computer Useという独自のAPI経由でアプリを操作する。
Perplexity Computerは、Mac専用のエージェント。ファイル、アプリ、Webを横断して操作でき、月額$200のProプランで利用可能。情報検索との統合が強み。
Grok Computerは、ピクセルレベルの画面認識で動く。APIに依存しないため、理論上はどんなソフトウェアでも操作できる。ただし現在はプライベートベータで、対象ユーザーは限定されている。
この中でGrok Computerが異質なのは、他の2つが「アプリとの連携方法」を前提にしているのに対して、Grok Computerは「人間と同じ方法で操作する」アプローチを取っていることだ。汎用性は高いが、その分、操作の精度やスピードは画面認識の品質に依存する。
「Macrohard」という大風呂敷
Grok Computerは単独の製品ではない。Elon Muskが3月11日に発表した「Macrohard」イニシアチブの一部だ。名前はMicrosoftをもじったもので、Tesla-xAIの共同プロジェクトとして20億ドルの投資が入っている。
Macrohardが目指しているのは、企業の反復的な管理業務——メール処理、データ入力、レポート生成、ソフトウェアテスト、カスタマーサービス——をAI「従業員」で置き換えることだ。Grok Computerはその消費者向けプレビューという位置づけになる。
正直、構想としてはかなり壮大で、実現までの距離は遠いと感じる。ただ、xAIがGrok 4.3の文書生成機能とGrok Computerの操作機能を同時にベータ展開している事実は、この方向に本気であることを示している。
現時点での制約
ベータ段階の製品なので、いくつか注意点がある。
まず、一般公開はまだだ。Elon Muskは「数日以内に大規模な公開テストを開始する」と発言しているが、現時点ではSuperGrokの一部ユーザーのみが対象。料金体系も正式には発表されていない。
ピクセルベースの操作には、構造的な弱点もあるだろう。UIのレイアウトが変わったり、ポップアップが予期せず出たりした場合、APIベースのエージェントなら影響を受けないが、画面認識型は混乱する可能性がある。
セキュリティの懸念も無視できない。AIがPC画面を常時監視し、マウスとキーボードを操作するということは、操作対象のすべてのデータにAIがアクセスできるということだ。企業環境での利用には慎重な検討が必要になる。
「すべてのソフトが動く」という賭け
デスクトップAIエージェントの競争で、各社のアプローチは分かれている。Claude CoworkとPerplexity Computerは「よく使うアプリとの連携を深める」方向。Grok Computerは「どんなアプリでも動く」方向。
どちらが正解かは、まだわからない。ただ、世の中のソフトウェアの大半はAPIを公開していない。社内ツール、業務用システム、古いデスクトップアプリ。こうした「APIのないソフトウェア」を自動化できるという一点において、Grok Computerのアプローチには独自の価値がある。
プライベートベータの間は見守るしかないが、公開テストが始まったら真っ先に試してみたいプロダクトの一つだ。
関連記事
Grokが「毎回同じ説明をする」問題を解決した — Skills機能で何が変わるのか
Grok Skillsの全容。ワークフローの作り方、標準スキル、ChatGPTとの違い、料金を整理した。
GrokがGmailやNotionと直接つながるようになった — 「Connectors」とMCP対応の実際
xAIがGrokに外部サービス連携機能「Connectors」を追加。Gmail、Notion、GitHub等との接続とカスタムMCPサーバー対応の詳細を解説。
AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地
xAI開発中のGrok Buildを解説。8並列AIとArena Modeで解法を自動評価するCLIツールの全容。