FlowTune Media

「AIにPCを操作させる」がクラウド不要に — オープンソースのHolo3.1が12GB GPUで動く

「AIにPCを操作させる」という発想自体はもう珍しくない。AnthropicのClaude Computer Use、MicrosoftのCopilot Studio CUA、GoogleのProject Marinerと、大手が軒並み手を出している。

ただし共通点がある。全部クラウドだ。

画面のスクリーンショットがクラウドに送られ、推論結果が返ってきて、マウスやキーボードの操作が実行される。レイテンシは数秒、コストは1タスクあたり数ドル、そしてスクリーンショットには自分のメール、Slack、社内ドキュメントがそのまま映っている。

6月2日、パリのAIスタートアップH Companyがこの状況を変えるモデルをリリースした。Holo3.1。オープンウェイト、Apache 2.0ライセンス、12GBのGPUがあれば手元のPCだけで動く。

DeepMind出身者が作ったPC操作AI

H Companyは2023年にパリで創業されたスタートアップだ。創業メンバーの5人中3人がDeepMind出身で、2024年にはヨーロッパ史上最大となる2.2億ドル(約330億円)のシードラウンドを調達している。

彼らが作っているのは「コンピュータを操作するAI」の基盤モデルだ。前バージョンのHolo3は2026年3月にリリースされ、OS-Worldベンチマークで68.1%を記録。Claude Computer Useを上回るスコアとして話題になった。

Holo3.1はその後継で、ベンチマークスコアを74.2%に引き上げつつ、モバイル対応とローカル実行の最適化を大幅に進めた。

なぜ「ローカルで動く」が重要なのか

コンピュータ操作AIをクラウドで動かすことの最大の問題は、プライバシーだ。

画面に映っているものがすべてクラウドに送られる。社内の未公開資料、顧客情報、個人のチャット履歴。企業のセキュリティポリシーで使用禁止になるのは当然だし、個人利用でも気持ちのいい話ではない。

Holo3.1は0.8B、4B、9B、35B-A3Bの4サイズでモデルを公開している。最小の0.8Bモデルなら4GBのVRAMで動く。4Bモデルでも12GBあれば十分で、これはNVIDIA RTX 4070クラスのGPUだ。Q4 GGUFやNVFP4の量子化チェックポイントが公式で用意されているため、ローカル環境へのデプロイはかなり現実的なラインに来ている。

推論速度も注目に値する。ローカル環境で1ステップ140ミリ秒。NVFP4量子化とNVIDIA最適化を組み合わせれば、ステップあたりの処理時間が6.8秒から3.3秒に短縮される。クラウドAPIのラウンドトリップ待ちがゼロになることを考えると、体感速度はクラウドサービスと遜色ない。

ベンチマークの読み方

ベンチマーク Holo3.1 (35B-A3B) Holo3 参考値
OS-World 74.2% 68.1% Claude Computer Use: 非公開
AndroidWorld 79.3% 67.0%

OS-Worldは仮想環境上でのPC操作タスク(ファイル操作、ブラウザ操作、アプリ設定変更など)の成功率を測るベンチマークで、74.2%は「4回に3回は期待通りに動く」水準だ。完璧とは言えないが、定型的な繰り返しタスクなら十分実用に耐える。

注目すべきはAndroidWorldの伸びだ。67%から79.3%への12ポイント改善は、Holo3.1がPC操作だけでなくスマートフォンの操作にも対応範囲を広げていることを示している。ネイティブの関数呼び出しサポートも追加され、LangChainやCrewAIといったエージェントフレームワークとの統合が容易になった。

コスト構造の違い

APIで使う場合の料金は、入力$0.40 / 出力$3.00(100万トークンあたり)。H Companyの試算では、同じタスクをClaude Computer Useで実行した場合と比べて約10分の1のコストだという。

だがHolo3.1の本当の強みは、API料金がゼロにできることだ。Apache 2.0ライセンスなので、手元のGPUで動かせば推論コストは電気代だけ。企業がオンプレミスで数百台のPCに展開するシナリオでも、ライセンス費用がかからない。

正直な評価

ここが強い:

ローカル実行、オープンライセンス、モデルサイズの選択肢。この3つが揃っているコンピュータ操作AIは他にない。Claude Computer UseもCopilot Studio CUAも、クラウド前提・プロプライエタリだ。プライバシーが重要な環境や、ネットワーク接続が安定しない環境では、Holo3.1は現時点で唯一の選択肢に近い。

ここが微妙:

74.2%という成功率は、「動かしてみたら4回に1回は失敗する」ことを意味する。人間の監視なしに完全自律で動かすには心もとない。また、最高性能の35B-A3Bモデルはそれなりのハードウェアが必要で、「誰でもノートPCで」という段階にはまだ届いていない。0.8Bや4Bの小型モデルでは精度がどこまで落ちるか、公式ベンチマークでは明示されていない部分も多い。

ローカルPC操作AIが開く可能性

コンピュータ操作AIがローカルで動くことの意味は、プライバシーだけにとどまらない。

たとえば社内のレガシーシステム。APIもWebhookもないが画面はある、というシステムは日本企業に山ほどある。こうしたシステムへの入力・転記作業を、画面を「見て」操作するAIに任せることが現実味を帯びてくる。クラウドに社内画面を送れないセキュリティポリシーの企業でも、ローカル実行なら検討の余地がある。

もう一つ面白いのは、エージェントフレームワークとの組み合わせだ。Holo3.1はネイティブ関数呼び出しに対応しているため、LangChainやCrewAIのワークフロー内で「ブラウザを開いて情報を取得し、別のアプリに入力する」といった操作を部品として組み込める。APIのないサービスをAIワークフローに接続するための「最後の一手」として使えるわけだ。

精度が100%ではない以上、当面は「人間が最終確認するタスク」が現実的な落としどころだろう。ただ、Apache 2.0で誰でもファインチューニングできるのだから、特定業務に特化した精度向上は時間の問題だと思う。クラウド大手がプロプライエタリで攻めるこの分野に、オープンソースの選択肢が入ってきたこと自体が大きい。

関連記事