FlowTune Media

AIにWebを読ませるならまずこれ — GitHub13万スターのFirecrawlが支持される理由

AIエージェントにWebの情報を読ませたい。RAGのナレッジベースを外部サイトから構築したい。競合のサービスページを定期的にチェックしたい。

どのケースでもぶつかるのが「Webページの中身をきれいに取り出す」という地味だが厄介な問題だ。生のHTMLにはナビゲーション、広告、フッター、CSSクラス名が詰まっていて、そのままLLMに食わせるとトークンの無駄遣いになる。JavaScriptで描画されるSPAはHTMLを取得しただけでは中身が空だ。

Firecrawl

Firecrawlはこの問題を1つのAPIコールで解決する。URLを渡すと、JavaScript描画を実行した上でHTMLからノイズを除去し、LLMが効率よく処理できるMarkdownに変換して返す。GitHubで13万スター以上を集め、DifyやReplitのバックエンドにも採用されている。

何が嬉しいのか、具体的に

Webスクレイピングのツールは昔からあるが、Firecrawlの価値は「AIのために最適化された出力」にある。

通常のスクレイパーはHTMLをそのまま、あるいはテキスト抽出して返す。Firecrawlは違う。ナビゲーション、サイドバー、Cookie同意バナー、広告ブロックを除去した上で、見出し構造を保ったMarkdownを生成する。公式によれば、生HTMLと比較してトークン消費が67%少ない。ChatGPTやClaudeのコンテキストウィンドウに入れるとき、この差は大きい。

JavaScriptレンダリングも標準で対応している。React、Next.js、Vueで構築されたSPAも、Firecrawlが内部でヘッドレスブラウザを動かして描画済みのDOMを取得する。CAPTCHAやアンチボット対策への回避機能も備えるが、この点は後述する注意事項がある。

4つのエンドポイント

FirecrawlのAPIは用途別に4つのモードを持っている。

Scrapeは単一URLからコンテンツを取得する基本機能。Markdown、構造化JSON、スクリーンショット、生HTMLのいずれかで出力できる。AI抽出モードではLLMを使って特定のフィールド(料金、機能一覧、連絡先など)だけを構造化データとして返すこともできる。

CrawlはルートURLから内部リンクを辿り、サイト全体を再帰的に取得する。ドキュメントサイト全体をナレッジベースに入れたいときに使う。

Mapはサイトマップを高速生成する。実際にページを描画せずにURLリストだけを返すので、クロール前の下調べに便利だ。

MonitorはWebページの変更を検知する。価格変更、在庫状況、新着コンテンツの監視に使える。

料金はどのくらいかかるか

無料プランで月1,000クレジット(≒1,000ページ)が使える。クレジットカード不要で始められる。

有料プランはHobbyが月16ドル(約2,500円)で3,000クレジット、Standardが月83ドル(約12,800円)で100,000クレジット、Growthが月333ドル(約51,000円)で500,000クレジット。

注意すべきは、操作によってクレジット消費が異なる点だ。基本のScrapeは1ページ1クレジットだが、CrawlとMapは1ページ2クレジット、AI抽出は1回5クレジットかかる。無料枠の1,000クレジットでAI抽出を使うと200回で尽きる計算になる。

オープンソース(AGPL-3.0ライセンス)なのでセルフホストも可能だ。自前のサーバーで動かせば、APIコストをゼロにできる。ただしヘッドレスブラウザの運用はそれなりにリソースを食うので、大量クロールではクラウド版の方が運用コストが低い場合もある。

DifyやClaude Codeとの組み合わせ

Firecrawlが単なるスクレイピングツールを超えて支持されている理由は、AIエージェントのエコシステムとの接続性にある。

MCPサーバーとして動作するため、Claude CodeやCline、Cursorから直接「このURLの中身を読んで」と指示するだけでFirecrawlが呼ばれる。DifyではRAGパイプラインのデータソースとしてネイティブ統合されており、外部サイトのコンテンツをワンクリックでナレッジベースに取り込める。

筆者がとくに実用的だと思うのは、Crawlモードでドキュメントサイト全体を取り込み、それをRAGのナレッジベースにする使い方だ。たとえば競合ツールの公式ドキュメントを丸ごと取り込んで「この機能に対応する自社の機能は何か?」と聞く——こういった調査作業が、API 1本で実現できる。

SDKはPython、Node.js、Go、Rustに対応している。REST APIも公開されているので、対応SDKがない言語でもHTTPリクエストで利用できる。

正直に言うと気になる点もある

スクレイピングツールである以上、利用規約と法的リスクには注意が必要だ。Firecrawlのアンチボット回避機能は便利だが、対象サイトの利用規約に反するケースがある。robots.txtを無視する設定も可能だが、それは自分が管理するサイトか、明示的に許可を得たサイトに限るべきだ。

もう一つ、SPAの描画精度は万能ではない。認証が必要なページ、複雑なクライアントサイドルーティング、動的に遅延ロードされるコンテンツの一部は取りこぼすことがある。公式は「96%のWebカバレッジ」を謳っているが、残りの4%に自分が必要とするサイトが含まれている可能性は常にある。

価格面では、大量にクロールする場合のコストが積み上がる。10万ページのサイトをCrawlモードで取得すると20万クレジットが必要で、Standardプランでは足りない。セルフホストという選択肢があるのは救いだが、インフラの運用負荷とのトレードオフになる。

Browse AIとの違い

同じカテゴリのBrowse AIはノーコードでWebモニタリングとデータ抽出ができるツールだ。GUIでポイント&クリックしてスクレイピングルールを設定する。

Firecrawlはコードファーストで、APIを叩いて使う。この違いが選択の分かれ目になる。非エンジニアが定型的なモニタリングを設定したいならBrowse AI、開発者がAIエージェントのパイプラインに組み込むならFirecrawl。用途が重なるようで、実は棲み分けがはっきりしている。

「Webの情報をAIに食わせる」という需要は、AIエージェントの普及とともに確実に増える。Firecrawlはその基盤ツールとして、今のうちに触っておく価値がある。

関連記事