FlowTune Media

AIに「画面を操作させる」を本番環境に出したのは、Microsoftが最初だった

AnthropicのComputer Useはベータのまま。GoogleのProject Marilynはプレビュー止まり。そんななか、5月13日にCopilot StudioがComputer-Using Agents(CUA)を全商用リージョンでGA(正式リリース)にした。

「AIに画面を見せて操作させる」というコンセプト自体は2024年から各社が発表してきたが、エンタープライズ向けに本番対応したのはMicrosoftが初だ。

コードを書かずに、AIにPCを操作させる

CUAの基本的な仕組みはこうだ。AIモデルが画面のスクリーンショットを「見て」、ボタンのクリック、メニューの選択、テキスト入力といった操作を実行する。Webアプリにもデスクトップアプリにも対応する。

Copilot Studioの強みは、これがノーコードで構築できる点にある。Power Platform上のビジュアルエディタでフローを組み、「このWebページを開いて」「このフォームに入力して」「この画面の値を読み取って」といった操作をドラッグ&ドロップで定義できる。RPA(Robotic Process Automation)の延長線上にある体験だが、固定的なシナリオだけでなくAIが画面の状態に応じて判断する柔軟性がある。

OpenAI CUAとClaude Sonnet 4.5の二刀流

面白いのはモデルの選択肢だ。GA時点でOpenAI CUAとClaude Sonnet 4.5の2つが本番対応モデルとして使える。1ステップあたり5 Copilot Creditsの消費で、どちらのモデルを使うかはユーザーが選べる。

AIモデルの画面認識精度は用途によって差が出る。複雑なWebアプリの操作ではOpenAI CUAが安定している場面がある一方、テキストの読み取りや判断を伴うタスクではClaude Sonnet 4.5に分があるケースもある。2モデルから選べるのは実用上ありがたい。

エンタープライズに必要な4つの機能

GAに合わせて追加された機能は、明らかにIT管理者やセキュリティチームを意識している。

Azure Key Vaultとの統合で、CUAが使う認証情報をセキュアに管理できる。AIが社内システムにログインする際のパスワードやAPIキーを、エージェント側に直接持たせずKey Vaultから取得する構成が取れる。

Microsoft Purviewの監査ログにCUAの操作が記録される。「AIが何を操作したか」のトレイルが残るため、コンプライアンス部門の要求に応えやすい。セッションリプレイ機能もあり、AIがどの画面で何をしたかを事後に確認できる。

Windows 365 Cloud PCプール対応も入った。使い捨てのクラウドPC上でCUAを実行することで、本番環境に影響を与えないサンドボックス実行が可能になる。

ヒューマン・イン・ザ・ループ(人間による承認ステップ)も設定可能で、「決済操作の前には人間の承認が必要」といったガードレールを組み込める。

正直な評価

Microsoftが「最初にGAを出した」という事実は、技術的な先進性というよりも、エンタープライズ向けのセキュリティ・ガバナンス機能を揃えるスピードの速さを示している。Computer Use自体の精度は、AnthropicやGoogleと比べて特別優れているわけではないだろう。

課題もある。1ステップ5 Copilot Creditsは、複雑なワークフローだとあっという間に消費される。「このWebアプリで10回クリックして、別のアプリに値を転記する」という操作だけで数十クレジットかかる計算になる。大量の定型業務を自動化するには、コスト面での計算が必要だ。

それでも、APIが存在しないレガシーシステムの操作を自動化できるのはCUAならではの価値だ。「画面しかインターフェースがない」社内システムを使い続けている企業にとって、RPA + AI判断の組み合わせは現実的な選択肢になる。GCC(政府クラウド)やDoD環境は初期GAの対象外だが、商用環境では全リージョンで使える状態だ。

関連記事