FlowTune Media

Browser UseでAIにブラウザを丸投げしたら、RPAの常識が壊れた

AIにブラウザ操作を丸投げしてみた。結論から言うと、RPAの概念が変わる。

セレクタを書かなくていい。XPathを調べなくていい。「このページの3番目のボタンをクリックして、出てきたフォームに名前を入力して、送信して」——自然言語でそう伝えるだけで、AIエージェントが勝手にブラウザを操作してくれる。Browser Useはそういうツールだ。

GitHub 86,000スター超。Fortune 500企業にも採用。ByteByteGoが「2026年最重要GitHubリポジトリ」として紹介。オープンソースのAIブラウザ自動化フレームワークとして、いま最も勢いがある。

「AIにブラウザを渡す」という発想

Browser UseはPythonで書かれたOSSライブラリで、LLM(大規模言語モデル)にブラウザの操作権限を渡す。LLMはスクリーンショットとDOM構造の両方を見ながら、人間がブラウザを使うように——クリック、入力、タブ切り替え、スクロール——を自律的に行う。

従来のRPAやブラウザ自動化ツールとの根本的な違いは、「スクリプトが不要」という点にある。SeleniumやPlaywrightでは、操作対象の要素を正確に指定するコードを書く必要があった。ボタンのIDが変われば動かなくなるし、ページ構造が変われば書き直し。メンテナンスコストが膨大だった。

Browser Useではその作業がいらない。LLMが画面を「見て」判断するから、UIが多少変わっても動く。人間がウェブサイトの見た目で操作しているのと同じロジックだ。

なぜ86kスターも集まったのか

正直、AIブラウザ自動化ツールは他にもある。Browserbaseが手がけるStagehandや、各社が出しているエージェントフレームワークなど、競合は少なくない。それでもBrowser Useが突出してスターを集めた理由は、いくつかある。

まず、MIT Licenseでフルオープンソースであること。商用利用に制限がなく、自社のインフラに自由にデプロイできる。エンタープライズがPoCを始めやすい。

次に、LLMの選択肢が広い。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash、DeepSeek、Llama系のローカルモデルまで、主要なLLMをほぼすべてサポートしている。OpenAI縛りでもAnthropic縛りでもないから、コストやパフォーマンスに応じて使い分けられる。さらに独自のbu-30bモデル(Browser Use 2.0)も公開していて、これはブラウザ操作に特化してチューニングされたモデルだ。フロンティアモデルの15分の1のコストで6倍速く動くと謳っている。

そして、Developer Experience(DX)がいい。Pythonで数行書けばエージェントが動くし、Web UIも用意されていてGradioベースでローカルに立ち上げられる。ドキュメントも充実していて、「とりあえず動かしてみる」までのハードルがとにかく低い。

Selenium・Playwrightとの棲み分け

Browser Useが登場したからといって、SeleniumやPlaywrightが不要になるわけではない。ここは冷静に見る必要がある。

Playwrightは決定論的(deterministic)な自動化の王道で、99%以上の信頼性がある。テストスイートを毎日回すような用途には、今でもPlaywrightが正解だ。高速で、再現性があり、LLMのAPI料金もかからない。

一方、Browser UseのようなAI駆動の自動化は、信頼性が85〜95%程度と言われている。1回あたりのタスクにLLM APIコストが$0.01〜$0.05かかる。大量のテストを回す用途にはまだ向かない。

じゃあBrowser Useの出番はどこかというと、「スクリプトを書くのが面倒な、非定型のタスク」だ。競合サイトの価格調査、複数サイトを横断したリサーチ、フォーム入力の自動化、予約サイトでの空き状況チェック。こういう「1回きり、あるいは頻度が低いけど手作業だと面倒」なタスクに、AI自動化は圧倒的に強い。

実際、現場では「Playwrightで80%の定型操作を処理し、残り20%の非定型部分にBrowser Useを使う」ハイブリッド構成が増えているという。これは納得感がある。

Cloud版の料金体系

OSSとして自前で動かす以外に、Browser Use Cloudというマネージドサービスもある。

無料プランで3つの同時エージェントとブラウザが使える。クレジットカード不要で始められるのは良心的だ。有料プランは月額$40〜$1,625で、$50〜$2,500分のクレジットが含まれる。プランが上がるほど割引率が高くなり、最大35%オフ。エンタープライズ向けにはカスタム料金でデータ保持ゼロの専用環境も用意されている。

従量課金の内訳を見ると、エージェントの1ステップあたり$0.002、タスク初期化に$0.01、リモートブラウザセッションが$0.06/時間。正直、軽い用途なら無料プランでも十分試せるし、業務で本格的に使うなら月$75〜$180あたりのプランが現実的だろう。

ただし、これにLLMのトークン料金が別途かかる。GPT-4oやClaude Opus 4.6のようなフロンティアモデルを使うと、100万トークンあたり$10〜$18。独自のBrowser Use 2.0モデルなら$0.72程度まで下がるが、精度とのトレードオフは当然ある。

実際に何に使えるのか

自分が触ってみて「これは実用的だな」と感じたユースケースをいくつか挙げる。

競合リサーチの自動化。 「A社、B社、C社の料金ページを開いて、プランと価格を表にまとめて」と指示すると、エージェントが各サイトを巡回してデータを収集する。手作業で30分かかっていた作業が2〜3分で終わる。

フォーム入力の一括処理。 CSVのデータを読み込んで、Webフォームに1件ずつ入力していくような作業。従来はSeleniumでスクリプトを書いていたが、Browser Useなら自然言語で指示するだけでいい。フォームの構造が変わっても大抵は対応できる。

定期的なモニタリング。 特定のページの在庫状況や価格変動を監視して、変化があったら通知する。Cloud版ではSkillsという機能で定型ワークフローを保存でき、スケジュール実行も可能。

テストの補助。 E2Eテストの全部をBrowser Useに置き換えるのは現実的ではないが、探索的テスト——「このウェブアプリを自由に触って、壊れる箇所を見つけて」——にはかなり使える。

2026年1月にはParallel AIとの統合も発表されていて、1分間に最大20ステップの操作が可能になった。人間がブラウザを操作するのと同等かそれ以上の速度だ。

正直な評価

良い点。 導入の手軽さは群を抜いている。pipでインストールして、APIキーを設定して、数行のPythonを書けば動く。LLMの選択肢が広く、ベンダーロックインがない。OSSなので中身が見えるし、カスタマイズも自由。Cloud版の無料プランがあるから、非エンジニアでも試せる。コミュニティも活発で、GitHubのissueやDiscordでの情報交換が盛ん。

微妙な点。 まず、信頼性の壁。重要な業務フローを100%任せるのはまだ怖い。エージェントが想定外の操作をするリスクは常にあるし、サイト側のCAPTCHAやBot検知に引っかかることもある(Cloud版にはアンチディテクト機能があるが、完璧ではない)。

LLMの料金も無視できない。1タスクごとにAPIコストが発生するから、大量のタスクを回すとPlaywrightの「無料で高速」に勝てない。コストと柔軟性のバランスを見極める必要がある。

それから、デバッグの難しさ。従来のスクリプトなら「何行目でエラーが出た」と特定できるが、LLMベースのエージェントは「なぜその操作をしたのか」がブラックボックスになりがち。ログは出るけど、人間が直感的に理解しづらい。

プライバシーとセキュリティの懸念もある。ブラウザにログイン情報を入力させる場面では、そのデータがLLMのAPIに送信される可能性がある。機密性の高いオペレーションには慎重な設計が必要だ。

結局、誰が使うべきか

「Seleniumのスクリプトを書くのがだるい開発者」と「RPAを導入したいけどコードは書けない非エンジニア」の両方に刺さる。前者にはPython SDKが、後者にはCloud版のノーコードUIがある。

ただし、「全自動化の銀の弾丸」だとは思わないほうがいい。現時点でのAIブラウザ自動化は、人間の監視下で使うのがベストだ。完全放置で回すには、まだ信頼性が足りない。

それでも、RPAの世界に「自然言語で指示するだけ」という選択肢が生まれたインパクトは大きい。SeleniumやPlaywrightが「プログラマーのためのブラウザ自動化」だったのに対して、Browser Useは「誰でも使えるブラウザ自動化」への入口を開いた。86,000スターは、その期待値の表れだろう。

触ってみて損はない。無料で始められるし、動いた瞬間の「おお」という感覚は、久しぶりに味わえるタイプのやつだ 🔥

関連記事