AIに「画面を操作させる」を本番環境に出したのは、Microsoftが最初だった
AnthropicのComputer Useはベータのまま。GoogleのProject Marilynはプレビュー止まり。そんななか、5月13日にCopilot StudioがComputer-Using Agents(CUA)を全商用リージョンでGA(正式リリース)にした。
「AIに画面を見せて操作させる」というコンセプト自体は2024年から各社が発表してきたが、エンタープライズ向けに本番対応したのはMicrosoftが初だ。
コードを書かずに、AIにPCを操作させる
CUAの基本的な仕組みはこうだ。AIモデルが画面のスクリーンショットを「見て」、ボタンのクリック、メニューの選択、テキスト入力といった操作を実行する。Webアプリにもデスクトップアプリにも対応する。
Copilot Studioの強みは、これがノーコードで構築できる点にある。Power Platform上のビジュアルエディタでフローを組み、「このWebページを開いて」「このフォームに入力して」「この画面の値を読み取って」といった操作をドラッグ&ドロップで定義できる。RPA(Robotic Process Automation)の延長線上にある体験だが、固定的なシナリオだけでなくAIが画面の状態に応じて判断する柔軟性がある。
OpenAI CUAとClaude Sonnet 4.5の二刀流
面白いのはモデルの選択肢だ。GA時点でOpenAI CUAとClaude Sonnet 4.5の2つが本番対応モデルとして使える。1ステップあたり5 Copilot Creditsの消費で、どちらのモデルを使うかはユーザーが選べる。
AIモデルの画面認識精度は用途によって差が出る。複雑なWebアプリの操作ではOpenAI CUAが安定している場面がある一方、テキストの読み取りや判断を伴うタスクではClaude Sonnet 4.5に分があるケースもある。2モデルから選べるのは実用上ありがたい。
エンタープライズに必要な4つの機能
GAに合わせて追加された機能は、明らかにIT管理者やセキュリティチームを意識している。
Azure Key Vaultとの統合で、CUAが使う認証情報をセキュアに管理できる。AIが社内システムにログインする際のパスワードやAPIキーを、エージェント側に直接持たせずKey Vaultから取得する構成が取れる。
Microsoft Purviewの監査ログにCUAの操作が記録される。「AIが何を操作したか」のトレイルが残るため、コンプライアンス部門の要求に応えやすい。セッションリプレイ機能もあり、AIがどの画面で何をしたかを事後に確認できる。
Windows 365 Cloud PCプール対応も入った。使い捨てのクラウドPC上でCUAを実行することで、本番環境に影響を与えないサンドボックス実行が可能になる。
ヒューマン・イン・ザ・ループ(人間による承認ステップ)も設定可能で、「決済操作の前には人間の承認が必要」といったガードレールを組み込める。
正直な評価
Microsoftが「最初にGAを出した」という事実は、技術的な先進性というよりも、エンタープライズ向けのセキュリティ・ガバナンス機能を揃えるスピードの速さを示している。Computer Use自体の精度は、AnthropicやGoogleと比べて特別優れているわけではないだろう。
課題もある。1ステップ5 Copilot Creditsは、複雑なワークフローだとあっという間に消費される。「このWebアプリで10回クリックして、別のアプリに値を転記する」という操作だけで数十クレジットかかる計算になる。大量の定型業務を自動化するには、コスト面での計算が必要だ。
それでも、APIが存在しないレガシーシステムの操作を自動化できるのはCUAならではの価値だ。「画面しかインターフェースがない」社内システムを使い続けている企業にとって、RPA + AI判断の組み合わせは現実的な選択肢になる。GCC(政府クラウド)やDoD環境は初期GAの対象外だが、商用環境では全リージョンで使える状態だ。
関連記事
OpenAI CodexがWindowsアプリを「操作」し始めた — ただし裏で動くのはMac限定
OpenAI Codex Computer UseがWindowsに対応。AIがアプリを見て操作する仕組みと、Mac版との違い、EU除外の背景、料金体系を整理する。
AIエージェントが「自分で検索する」時代のAPI — MicrosoftがBingの上に作ったWeb IQの中身
Microsoft Web IQはAIエージェント向けの検索グラウンディングAPI。Bing基盤で164ms応答、MCP対応。ChatGPTとCopilotを裏で支える仕組みと、開発者にとっての意味を解説する。
メール・会議・ファイルをまとめて「エージェントの記憶」にする — MicrosoftのWork IQ APIが解く問題
Microsoft Work IQ APIはMicrosoft 365のデータをAIエージェントに渡すインテリジェンスレイヤー。MCP対応、10個の汎用ツール、6月16日GA。仕組みと料金を解説。