「AIにPCを操作させる」がクラウド不要に — オープンソースのHolo3.1が12GB GPUで動く
「AIにPCを操作させる」という発想自体はもう珍しくない。AnthropicのClaude Computer Use、MicrosoftのCopilot Studio CUA、GoogleのProject Marinerと、大手が軒並み手を出している。
ただし共通点がある。全部クラウドだ。
画面のスクリーンショットがクラウドに送られ、推論結果が返ってきて、マウスやキーボードの操作が実行される。レイテンシは数秒、コストは1タスクあたり数ドル、そしてスクリーンショットには自分のメール、Slack、社内ドキュメントがそのまま映っている。
6月2日、パリのAIスタートアップH Companyがこの状況を変えるモデルをリリースした。Holo3.1。オープンウェイト、Apache 2.0ライセンス、12GBのGPUがあれば手元のPCだけで動く。
DeepMind出身者が作ったPC操作AI
H Companyは2023年にパリで創業されたスタートアップだ。創業メンバーの5人中3人がDeepMind出身で、2024年にはヨーロッパ史上最大となる2.2億ドル(約330億円)のシードラウンドを調達している。
彼らが作っているのは「コンピュータを操作するAI」の基盤モデルだ。前バージョンのHolo3は2026年3月にリリースされ、OS-Worldベンチマークで68.1%を記録。Claude Computer Useを上回るスコアとして話題になった。
Holo3.1はその後継で、ベンチマークスコアを74.2%に引き上げつつ、モバイル対応とローカル実行の最適化を大幅に進めた。
なぜ「ローカルで動く」が重要なのか
コンピュータ操作AIをクラウドで動かすことの最大の問題は、プライバシーだ。
画面に映っているものがすべてクラウドに送られる。社内の未公開資料、顧客情報、個人のチャット履歴。企業のセキュリティポリシーで使用禁止になるのは当然だし、個人利用でも気持ちのいい話ではない。
Holo3.1は0.8B、4B、9B、35B-A3Bの4サイズでモデルを公開している。最小の0.8Bモデルなら4GBのVRAMで動く。4Bモデルでも12GBあれば十分で、これはNVIDIA RTX 4070クラスのGPUだ。Q4 GGUFやNVFP4の量子化チェックポイントが公式で用意されているため、ローカル環境へのデプロイはかなり現実的なラインに来ている。
推論速度も注目に値する。ローカル環境で1ステップ140ミリ秒。NVFP4量子化とNVIDIA最適化を組み合わせれば、ステップあたりの処理時間が6.8秒から3.3秒に短縮される。クラウドAPIのラウンドトリップ待ちがゼロになることを考えると、体感速度はクラウドサービスと遜色ない。
ベンチマークの読み方
| ベンチマーク | Holo3.1 (35B-A3B) | Holo3 | 参考値 |
|---|---|---|---|
| OS-World | 74.2% | 68.1% | Claude Computer Use: 非公開 |
| AndroidWorld | 79.3% | 67.0% | — |
OS-Worldは仮想環境上でのPC操作タスク(ファイル操作、ブラウザ操作、アプリ設定変更など)の成功率を測るベンチマークで、74.2%は「4回に3回は期待通りに動く」水準だ。完璧とは言えないが、定型的な繰り返しタスクなら十分実用に耐える。
注目すべきはAndroidWorldの伸びだ。67%から79.3%への12ポイント改善は、Holo3.1がPC操作だけでなくスマートフォンの操作にも対応範囲を広げていることを示している。ネイティブの関数呼び出しサポートも追加され、LangChainやCrewAIといったエージェントフレームワークとの統合が容易になった。
コスト構造の違い
APIで使う場合の料金は、入力$0.40 / 出力$3.00(100万トークンあたり)。H Companyの試算では、同じタスクをClaude Computer Useで実行した場合と比べて約10分の1のコストだという。
だがHolo3.1の本当の強みは、API料金がゼロにできることだ。Apache 2.0ライセンスなので、手元のGPUで動かせば推論コストは電気代だけ。企業がオンプレミスで数百台のPCに展開するシナリオでも、ライセンス費用がかからない。
正直な評価
ここが強い:
ローカル実行、オープンライセンス、モデルサイズの選択肢。この3つが揃っているコンピュータ操作AIは他にない。Claude Computer UseもCopilot Studio CUAも、クラウド前提・プロプライエタリだ。プライバシーが重要な環境や、ネットワーク接続が安定しない環境では、Holo3.1は現時点で唯一の選択肢に近い。
ここが微妙:
74.2%という成功率は、「動かしてみたら4回に1回は失敗する」ことを意味する。人間の監視なしに完全自律で動かすには心もとない。また、最高性能の35B-A3Bモデルはそれなりのハードウェアが必要で、「誰でもノートPCで」という段階にはまだ届いていない。0.8Bや4Bの小型モデルでは精度がどこまで落ちるか、公式ベンチマークでは明示されていない部分も多い。
ローカルPC操作AIが開く可能性
コンピュータ操作AIがローカルで動くことの意味は、プライバシーだけにとどまらない。
たとえば社内のレガシーシステム。APIもWebhookもないが画面はある、というシステムは日本企業に山ほどある。こうしたシステムへの入力・転記作業を、画面を「見て」操作するAIに任せることが現実味を帯びてくる。クラウドに社内画面を送れないセキュリティポリシーの企業でも、ローカル実行なら検討の余地がある。
もう一つ面白いのは、エージェントフレームワークとの組み合わせだ。Holo3.1はネイティブ関数呼び出しに対応しているため、LangChainやCrewAIのワークフロー内で「ブラウザを開いて情報を取得し、別のアプリに入力する」といった操作を部品として組み込める。APIのないサービスをAIワークフローに接続するための「最後の一手」として使えるわけだ。
精度が100%ではない以上、当面は「人間が最終確認するタスク」が現実的な落としどころだろう。ただ、Apache 2.0で誰でもファインチューニングできるのだから、特定業務に特化した精度向上は時間の問題だと思う。クラウド大手がプロプライエタリで攻めるこの分野に、オープンソースの選択肢が入ってきたこと自体が大きい。
関連記事
ChatGPTもClaudeも使わない「自分だけのAI」を、PewDiePieが無料で配り始めた
PewDiePieが公開したセルフホスト型AIワークスペースOdysseus。チャット・エージェント・メール・リサーチを統合し、データは自分のPCだけに残る。
論文を読み、データを集め、モデルを鍛える — Hugging Faceが公開した「AI研究者エージェント」
Hugging Face公式のOSSエージェント「ml-intern」を解説。arXiv論文の自動巡回からLLMのファインチューニング、評価まで自律実行する仕組みと実際の改善実績を紹介。
手書きも表もPDFも、まとめてテキストに変換する無料AI — Chandra OCR 2の実力
Datalabが公開したオープンソースOCRモデルChandra OCR 2を紹介。olmOCRベンチマーク85.9%、4Bパラメータ、手書き・表・数式・90言語対応。Gemini 2.5 Flashを上回った理由と実用シーンを整理する。