Browser UseでAIにブラウザを丸投げしたら、RPAの常識が壊れた
AIにブラウザ操作を丸投げしてみた。結論から言うと、RPAの概念が変わる。
セレクタを書かなくていい。XPathを調べなくていい。「このページの3番目のボタンをクリックして、出てきたフォームに名前を入力して、送信して」——自然言語でそう伝えるだけで、AIエージェントが勝手にブラウザを操作してくれる。Browser Useはそういうツールだ。
GitHub 86,000スター超。Fortune 500企業にも採用。ByteByteGoが「2026年最重要GitHubリポジトリ」として紹介。オープンソースのAIブラウザ自動化フレームワークとして、いま最も勢いがある。
「AIにブラウザを渡す」という発想
Browser UseはPythonで書かれたOSSライブラリで、LLM(大規模言語モデル)にブラウザの操作権限を渡す。LLMはスクリーンショットとDOM構造の両方を見ながら、人間がブラウザを使うように——クリック、入力、タブ切り替え、スクロール——を自律的に行う。
従来のRPAやブラウザ自動化ツールとの根本的な違いは、「スクリプトが不要」という点にある。SeleniumやPlaywrightでは、操作対象の要素を正確に指定するコードを書く必要があった。ボタンのIDが変われば動かなくなるし、ページ構造が変われば書き直し。メンテナンスコストが膨大だった。
Browser Useではその作業がいらない。LLMが画面を「見て」判断するから、UIが多少変わっても動く。人間がウェブサイトの見た目で操作しているのと同じロジックだ。
なぜ86kスターも集まったのか
正直、AIブラウザ自動化ツールは他にもある。Browserbaseが手がけるStagehandや、各社が出しているエージェントフレームワークなど、競合は少なくない。それでもBrowser Useが突出してスターを集めた理由は、いくつかある。
まず、MIT Licenseでフルオープンソースであること。商用利用に制限がなく、自社のインフラに自由にデプロイできる。エンタープライズがPoCを始めやすい。
次に、LLMの選択肢が広い。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash、DeepSeek、Llama系のローカルモデルまで、主要なLLMをほぼすべてサポートしている。OpenAI縛りでもAnthropic縛りでもないから、コストやパフォーマンスに応じて使い分けられる。さらに独自のbu-30bモデル(Browser Use 2.0)も公開していて、これはブラウザ操作に特化してチューニングされたモデルだ。フロンティアモデルの15分の1のコストで6倍速く動くと謳っている。
そして、Developer Experience(DX)がいい。Pythonで数行書けばエージェントが動くし、Web UIも用意されていてGradioベースでローカルに立ち上げられる。ドキュメントも充実していて、「とりあえず動かしてみる」までのハードルがとにかく低い。
Selenium・Playwrightとの棲み分け
Browser Useが登場したからといって、SeleniumやPlaywrightが不要になるわけではない。ここは冷静に見る必要がある。
Playwrightは決定論的(deterministic)な自動化の王道で、99%以上の信頼性がある。テストスイートを毎日回すような用途には、今でもPlaywrightが正解だ。高速で、再現性があり、LLMのAPI料金もかからない。
一方、Browser UseのようなAI駆動の自動化は、信頼性が85〜95%程度と言われている。1回あたりのタスクにLLM APIコストが$0.01〜$0.05かかる。大量のテストを回す用途にはまだ向かない。
じゃあBrowser Useの出番はどこかというと、「スクリプトを書くのが面倒な、非定型のタスク」だ。競合サイトの価格調査、複数サイトを横断したリサーチ、フォーム入力の自動化、予約サイトでの空き状況チェック。こういう「1回きり、あるいは頻度が低いけど手作業だと面倒」なタスクに、AI自動化は圧倒的に強い。
実際、現場では「Playwrightで80%の定型操作を処理し、残り20%の非定型部分にBrowser Useを使う」ハイブリッド構成が増えているという。これは納得感がある。
Cloud版の料金体系
OSSとして自前で動かす以外に、Browser Use Cloudというマネージドサービスもある。
無料プランで3つの同時エージェントとブラウザが使える。クレジットカード不要で始められるのは良心的だ。有料プランは月額$40〜$1,625で、$50〜$2,500分のクレジットが含まれる。プランが上がるほど割引率が高くなり、最大35%オフ。エンタープライズ向けにはカスタム料金でデータ保持ゼロの専用環境も用意されている。
従量課金の内訳を見ると、エージェントの1ステップあたり$0.002、タスク初期化に$0.01、リモートブラウザセッションが$0.06/時間。正直、軽い用途なら無料プランでも十分試せるし、業務で本格的に使うなら月$75〜$180あたりのプランが現実的だろう。
ただし、これにLLMのトークン料金が別途かかる。GPT-4oやClaude Opus 4.6のようなフロンティアモデルを使うと、100万トークンあたり$10〜$18。独自のBrowser Use 2.0モデルなら$0.72程度まで下がるが、精度とのトレードオフは当然ある。
実際に何に使えるのか
自分が触ってみて「これは実用的だな」と感じたユースケースをいくつか挙げる。
競合リサーチの自動化。 「A社、B社、C社の料金ページを開いて、プランと価格を表にまとめて」と指示すると、エージェントが各サイトを巡回してデータを収集する。手作業で30分かかっていた作業が2〜3分で終わる。
フォーム入力の一括処理。 CSVのデータを読み込んで、Webフォームに1件ずつ入力していくような作業。従来はSeleniumでスクリプトを書いていたが、Browser Useなら自然言語で指示するだけでいい。フォームの構造が変わっても大抵は対応できる。
定期的なモニタリング。 特定のページの在庫状況や価格変動を監視して、変化があったら通知する。Cloud版ではSkillsという機能で定型ワークフローを保存でき、スケジュール実行も可能。
テストの補助。 E2Eテストの全部をBrowser Useに置き換えるのは現実的ではないが、探索的テスト——「このウェブアプリを自由に触って、壊れる箇所を見つけて」——にはかなり使える。
2026年1月にはParallel AIとの統合も発表されていて、1分間に最大20ステップの操作が可能になった。人間がブラウザを操作するのと同等かそれ以上の速度だ。
正直な評価
良い点。 導入の手軽さは群を抜いている。pipでインストールして、APIキーを設定して、数行のPythonを書けば動く。LLMの選択肢が広く、ベンダーロックインがない。OSSなので中身が見えるし、カスタマイズも自由。Cloud版の無料プランがあるから、非エンジニアでも試せる。コミュニティも活発で、GitHubのissueやDiscordでの情報交換が盛ん。
微妙な点。 まず、信頼性の壁。重要な業務フローを100%任せるのはまだ怖い。エージェントが想定外の操作をするリスクは常にあるし、サイト側のCAPTCHAやBot検知に引っかかることもある(Cloud版にはアンチディテクト機能があるが、完璧ではない)。
LLMの料金も無視できない。1タスクごとにAPIコストが発生するから、大量のタスクを回すとPlaywrightの「無料で高速」に勝てない。コストと柔軟性のバランスを見極める必要がある。
それから、デバッグの難しさ。従来のスクリプトなら「何行目でエラーが出た」と特定できるが、LLMベースのエージェントは「なぜその操作をしたのか」がブラックボックスになりがち。ログは出るけど、人間が直感的に理解しづらい。
プライバシーとセキュリティの懸念もある。ブラウザにログイン情報を入力させる場面では、そのデータがLLMのAPIに送信される可能性がある。機密性の高いオペレーションには慎重な設計が必要だ。
結局、誰が使うべきか
「Seleniumのスクリプトを書くのがだるい開発者」と「RPAを導入したいけどコードは書けない非エンジニア」の両方に刺さる。前者にはPython SDKが、後者にはCloud版のノーコードUIがある。
ただし、「全自動化の銀の弾丸」だとは思わないほうがいい。現時点でのAIブラウザ自動化は、人間の監視下で使うのがベストだ。完全放置で回すには、まだ信頼性が足りない。
それでも、RPAの世界に「自然言語で指示するだけ」という選択肢が生まれたインパクトは大きい。SeleniumやPlaywrightが「プログラマーのためのブラウザ自動化」だったのに対して、Browser Useは「誰でも使えるブラウザ自動化」への入口を開いた。86,000スターは、その期待値の表れだろう。
触ってみて損はない。無料で始められるし、動いた瞬間の「おお」という感覚は、久しぶりに味わえるタイプのやつだ 🔥
関連記事
Mastra — Gatsbyチームが作ったTypeScript AIエージェントフレームワークは本物か
Gatsbyのチームが次に作ったのは、AIエージェントフレームワークだった。 あのReact製静的サイトジェネレーターで一世を風靡したGatsbyの共同創業者Sam Bhagwat氏が、2024年に立ち上げたのがMastra(https://mastra.ai/)だ。GitHub 22,000スター超、月間180万
Needle 2.0 — AIが自動でワークフローを作り、売れる時代が本当に来たのか
ワークフローを作ったら、売れる。 冗談みたいな話だが、Needle 2.0(https://needle.app/)はそれを本気でやろうとしている。AIエージェントにテキストで指示するだけで自動化ワークフローが完成し、それをマーケットプレイスに出品すれば他のユーザーが使うたびに収益が入る——いわゆるパッシブインカム
Dify入門 — コードを書かずにAIエージェントを構築できるOSSプラットフォームの実力と限界
AIエージェントを自分で作りたい。でもLangChainのPythonコードは読めない。n8nのノードを繋ぐのも正直しんどい。そんな人が最初に触るべきプラットフォームは何か? 筆者の答えは、現時点ではDify(https://dify.ai/)だ。 GitHub 114kスターの意味 Difyは2023年に公