AIに「画面を操作させる」を本番環境に出したのは、Microsoftが最初だった

AnthropicのComputer Useはベータのまま。GoogleのProject Marilynはプレビュー止まり。そんななか、5月13日にCopilot StudioがComputer-Using Agents（CUA）を全商用リージョンでGA（正式リリース）にした。

「AIに画面を見せて操作させる」というコンセプト自体は2024年から各社が発表してきたが、エンタープライズ向けに本番対応したのはMicrosoftが初だ。

コードを書かずに、AIにPCを操作させる

CUAの基本的な仕組みはこうだ。AIモデルが画面のスクリーンショットを「見て」、ボタンのクリック、メニューの選択、テキスト入力といった操作を実行する。Webアプリにもデスクトップアプリにも対応する。

Copilot Studioの強みは、これがノーコードで構築できる点にある。Power Platform上のビジュアルエディタでフローを組み、「このWebページを開いて」「このフォームに入力して」「この画面の値を読み取って」といった操作をドラッグ&ドロップで定義できる。RPA（Robotic Process Automation）の延長線上にある体験だが、固定的なシナリオだけでなくAIが画面の状態に応じて判断する柔軟性がある。

OpenAI CUAとClaude Sonnet 4.5の二刀流

面白いのはモデルの選択肢だ。GA時点でOpenAI CUAとClaude Sonnet 4.5の2つが本番対応モデルとして使える。1ステップあたり5 Copilot Creditsの消費で、どちらのモデルを使うかはユーザーが選べる。

AIモデルの画面認識精度は用途によって差が出る。複雑なWebアプリの操作ではOpenAI CUAが安定している場面がある一方、テキストの読み取りや判断を伴うタスクではClaude Sonnet 4.5に分があるケースもある。2モデルから選べるのは実用上ありがたい。

エンタープライズに必要な4つの機能

GAに合わせて追加された機能は、明らかにIT管理者やセキュリティチームを意識している。

Azure Key Vaultとの統合で、CUAが使う認証情報をセキュアに管理できる。AIが社内システムにログインする際のパスワードやAPIキーを、エージェント側に直接持たせずKey Vaultから取得する構成が取れる。

Microsoft Purviewの監査ログにCUAの操作が記録される。「AIが何を操作したか」のトレイルが残るため、コンプライアンス部門の要求に応えやすい。セッションリプレイ機能もあり、AIがどの画面で何をしたかを事後に確認できる。

Windows 365 Cloud PCプール対応も入った。使い捨てのクラウドPC上でCUAを実行することで、本番環境に影響を与えないサンドボックス実行が可能になる。

ヒューマン・イン・ザ・ループ（人間による承認ステップ）も設定可能で、「決済操作の前には人間の承認が必要」といったガードレールを組み込める。

正直な評価

Microsoftが「最初にGAを出した」という事実は、技術的な先進性というよりも、エンタープライズ向けのセキュリティ・ガバナンス機能を揃えるスピードの速さを示している。Computer Use自体の精度は、AnthropicやGoogleと比べて特別優れているわけではないだろう。

課題もある。1ステップ5 Copilot Creditsは、複雑なワークフローだとあっという間に消費される。「このWebアプリで10回クリックして、別のアプリに値を転記する」という操作だけで数十クレジットかかる計算になる。大量の定型業務を自動化するには、コスト面での計算が必要だ。

それでも、APIが存在しないレガシーシステムの操作を自動化できるのはCUAならではの価値だ。「画面しかインターフェースがない」社内システムを使い続けている企業にとって、RPA + AI判断の組み合わせは現実的な選択肢になる。GCC（政府クラウド）やDoD環境は初期GAの対象外だが、商用環境では全リージョンで使える状態だ。

AIに「画面を操作させる」を本番環境に出したのは、Microsoftが最初だった

コードを書かずに、AIにPCを操作させる

OpenAI CUAとClaude Sonnet 4.5の二刀流

エンタープライズに必要な4つの機能

正直な評価

関連記事

Microsoftが6,000人の部隊を送り込んでくる — 3,750億円のAI導入専門会社が始動した

OpenAI CodexがWindowsアプリを「操作」し始めた — ただし裏で動くのはMac限定

AIエージェントが「自分で検索する」時代のAPI — MicrosoftがBingの上に作ったWeb IQの中身