AIにWebを読ませるならまずこれ — GitHub13万スターのFirecrawlが支持される理由
AIエージェントにWebの情報を読ませたい。RAGのナレッジベースを外部サイトから構築したい。競合のサービスページを定期的にチェックしたい。
どのケースでもぶつかるのが「Webページの中身をきれいに取り出す」という地味だが厄介な問題だ。生のHTMLにはナビゲーション、広告、フッター、CSSクラス名が詰まっていて、そのままLLMに食わせるとトークンの無駄遣いになる。JavaScriptで描画されるSPAはHTMLを取得しただけでは中身が空だ。

Firecrawlはこの問題を1つのAPIコールで解決する。URLを渡すと、JavaScript描画を実行した上でHTMLからノイズを除去し、LLMが効率よく処理できるMarkdownに変換して返す。GitHubで13万スター以上を集め、DifyやReplitのバックエンドにも採用されている。
何が嬉しいのか、具体的に
Webスクレイピングのツールは昔からあるが、Firecrawlの価値は「AIのために最適化された出力」にある。
通常のスクレイパーはHTMLをそのまま、あるいはテキスト抽出して返す。Firecrawlは違う。ナビゲーション、サイドバー、Cookie同意バナー、広告ブロックを除去した上で、見出し構造を保ったMarkdownを生成する。公式によれば、生HTMLと比較してトークン消費が67%少ない。ChatGPTやClaudeのコンテキストウィンドウに入れるとき、この差は大きい。
JavaScriptレンダリングも標準で対応している。React、Next.js、Vueで構築されたSPAも、Firecrawlが内部でヘッドレスブラウザを動かして描画済みのDOMを取得する。CAPTCHAやアンチボット対策への回避機能も備えるが、この点は後述する注意事項がある。
4つのエンドポイント
FirecrawlのAPIは用途別に4つのモードを持っている。
Scrapeは単一URLからコンテンツを取得する基本機能。Markdown、構造化JSON、スクリーンショット、生HTMLのいずれかで出力できる。AI抽出モードではLLMを使って特定のフィールド(料金、機能一覧、連絡先など)だけを構造化データとして返すこともできる。
CrawlはルートURLから内部リンクを辿り、サイト全体を再帰的に取得する。ドキュメントサイト全体をナレッジベースに入れたいときに使う。
Mapはサイトマップを高速生成する。実際にページを描画せずにURLリストだけを返すので、クロール前の下調べに便利だ。
MonitorはWebページの変更を検知する。価格変更、在庫状況、新着コンテンツの監視に使える。
料金はどのくらいかかるか
無料プランで月1,000クレジット(≒1,000ページ)が使える。クレジットカード不要で始められる。
有料プランはHobbyが月16ドル(約2,500円)で3,000クレジット、Standardが月83ドル(約12,800円)で100,000クレジット、Growthが月333ドル(約51,000円)で500,000クレジット。
注意すべきは、操作によってクレジット消費が異なる点だ。基本のScrapeは1ページ1クレジットだが、CrawlとMapは1ページ2クレジット、AI抽出は1回5クレジットかかる。無料枠の1,000クレジットでAI抽出を使うと200回で尽きる計算になる。
オープンソース(AGPL-3.0ライセンス)なのでセルフホストも可能だ。自前のサーバーで動かせば、APIコストをゼロにできる。ただしヘッドレスブラウザの運用はそれなりにリソースを食うので、大量クロールではクラウド版の方が運用コストが低い場合もある。
DifyやClaude Codeとの組み合わせ
Firecrawlが単なるスクレイピングツールを超えて支持されている理由は、AIエージェントのエコシステムとの接続性にある。
MCPサーバーとして動作するため、Claude CodeやCline、Cursorから直接「このURLの中身を読んで」と指示するだけでFirecrawlが呼ばれる。DifyではRAGパイプラインのデータソースとしてネイティブ統合されており、外部サイトのコンテンツをワンクリックでナレッジベースに取り込める。
筆者がとくに実用的だと思うのは、Crawlモードでドキュメントサイト全体を取り込み、それをRAGのナレッジベースにする使い方だ。たとえば競合ツールの公式ドキュメントを丸ごと取り込んで「この機能に対応する自社の機能は何か?」と聞く——こういった調査作業が、API 1本で実現できる。
SDKはPython、Node.js、Go、Rustに対応している。REST APIも公開されているので、対応SDKがない言語でもHTTPリクエストで利用できる。
正直に言うと気になる点もある
スクレイピングツールである以上、利用規約と法的リスクには注意が必要だ。Firecrawlのアンチボット回避機能は便利だが、対象サイトの利用規約に反するケースがある。robots.txtを無視する設定も可能だが、それは自分が管理するサイトか、明示的に許可を得たサイトに限るべきだ。
もう一つ、SPAの描画精度は万能ではない。認証が必要なページ、複雑なクライアントサイドルーティング、動的に遅延ロードされるコンテンツの一部は取りこぼすことがある。公式は「96%のWebカバレッジ」を謳っているが、残りの4%に自分が必要とするサイトが含まれている可能性は常にある。
価格面では、大量にクロールする場合のコストが積み上がる。10万ページのサイトをCrawlモードで取得すると20万クレジットが必要で、Standardプランでは足りない。セルフホストという選択肢があるのは救いだが、インフラの運用負荷とのトレードオフになる。
Browse AIとの違い
同じカテゴリのBrowse AIはノーコードでWebモニタリングとデータ抽出ができるツールだ。GUIでポイント&クリックしてスクレイピングルールを設定する。
Firecrawlはコードファーストで、APIを叩いて使う。この違いが選択の分かれ目になる。非エンジニアが定型的なモニタリングを設定したいならBrowse AI、開発者がAIエージェントのパイプラインに組み込むならFirecrawl。用途が重なるようで、実は棲み分けがはっきりしている。
「Webの情報をAIに食わせる」という需要は、AIエージェントの普及とともに確実に増える。Firecrawlはその基盤ツールとして、今のうちに触っておく価値がある。
関連記事
会議メモとメールを食わせるだけで「仕事の記憶」が育つ — オープンソースAI同僚Rowboatの仕組み
Rowboatはメール・会議メモからナレッジグラフを自動構築するオープンソースAIコワーカー。ローカル動作でプライバシーを守りつつ、仕事の文脈を記憶し続ける仕組みを解説。
Claude Desktopの「OSS版」を名乗るアプリが46のMCPコネクタを内蔵していた — OpenYakの全貌
OpenYakはローカルで動くOSSのAIエージェント。46のMCPコネクタ、20以上のプロバイダー対応、メッセージング統合の実力を解説。
ByteDanceがオープンソースで出してきたAIエージェント基盤が、GitHub4.5万スターを集めている
ByteDance発のオープンソースマルチエージェントフレームワークDeerFlowを解説。Docker内でコードを実行し、リサーチからレポート作成まで自律で動く仕組みと使い所を整理する。