FlowTune Media

6か月のプロジェクトを6日で終わらせる — 評価額2,100億円のAIコーディング企業Blitzyの仕組み

2億ドル調達。評価額14億ドル(約2,100億円)。SWE-Bench Proで66.5%のスコア。

数字だけ見ればまた一つのAIスタートアップの資金調達ニュースに見えるかもしれない。しかしBlitzyがやっていることは、CursorやDevinとは根本的に異なる。

CursorやDevinと何が違うのか

Cursorは「エンジニアの隣に座るAI」だ。ファイルを開いて、提案を受けて、承認して進める。Devinは「タスクを渡すと自分で考えて実装するAIエンジニア」。どちらも「1人のAIが1つのタスクを処理する」構図は同じだ。

Blitzyはその前提から外れている。

数千のエージェントを同時に走らせ、数日から数週間にわたって中断なく推論を続ける。1つのタスクに1つのAIではなく、プロジェクト全体を数千の並列エージェントが分担する。Google、Anthropic、OpenAIのモデルを組み合わせ、1回の実行サイクルで10万回以上のモデルコールを行うと公表されている。

イメージとしては、100人のエンジニアチームを一瞬で召集し、全員が同じコードベースを理解した状態で一斉に作業を始める感覚に近い。

仕組み

Blitzyの動作は3段階に分かれる。

第1段階: コードベースの理解。 GitHubなどのリポジトリを接続すると、専用エージェントが依存関係、パッケージ、ライブラリをマッピングし、コードベース全体の動的なナレッジグラフを構築する。数百万行規模のコードベースに対応する。

第2段階: タスク分割と並列実行。 開発タスクを受け取ると、オーケストレーション層がタスクを分割し、数千のエージェントに割り当てる。各エージェントはナレッジグラフを参照しながら自律的にコードを書き、テストを走らせ、品質チェックを行う。

第3段階: 統合と検証。 各エージェントの成果物を統合し、一貫性を検証する。コンフリクトの解消もこの層で処理される。

公式サイトでは「ロードマップの80%をAIが構築し、残り20%を人間のエンジニアが仕上げる」と説明している。「6か月のプロジェクトが6日になる」という主張は、この80/20のモデルに基づいている。

誰が使っているのか

公表情報によれば、すでにGlobal 2000企業の数十社が導入済み。一部の顧客ではエンジニアリング速度が5倍に改善したと報じられている。

これはつまり、個人開発者やスタートアップ向けのツールではないということだ。エンタープライズの巨大コードベース、社内ルール、コンプライアンス要件——そういった複雑さがあってこそ、「数千エージェントの並列実行」が意味を持つ。

気になる点

料金は非公開。エンタープライズ向けの個別見積りのみで、10万回以上のモデルコールを伴うサービスである以上、安くはないだろう。

「6か月が6日」という主張も、額面通りに受け取るのは難しい。80%の自動化が可能としても、残り20%が最も困難な部分(アーキテクチャ判断、ビジネスロジックの曖昧さ、レガシーシステムとの統合)であるケースは珍しくない。全体の工数が5分の1になっても、プロジェクトの完了が6分の1にはならないのが現実だ。

加えて、複数AIモデルへの依存は運用コストの予測を難しくする。OpenAI・Anthropic・Googleの料金改定がそのままBlitzyの利用コストに跳ね返る構造は、CFOにとっては悩ましいはずだ。

CursorやDevinの対抗馬ではない

正確に言えば、Blitzyの競合はCursorでもDevinでもない。同じ「AIコーディング」カテゴリに分類されるが、解いている問題が違う。

  • Cursor → 個人〜小チームの日常的なコーディング支援
  • Devin / Claude Code → 1タスク単位の自律的な開発・PRの自動生成
  • Blitzy → プロジェクト単位の大規模自律開発

開発者が手を動かすレイヤー(Cursor)、タスクを委任するレイヤー(Devin)、プロジェクトを丸ごと任せるレイヤー(Blitzy)。レイヤーが異なるので、むしろ補完関係にある。

ただし現実的には、Blitzyが対象とする「6か月規模のプロジェクト」の自律化は、まだ実証段階にあると見たほうがいい。SWE-Bench Pro 66.5%は優秀だが、エンタープライズの本番環境はベンチマークよりはるかに複雑だ。「5倍速」の実績がどの程度再現可能なのか、より多くの導入事例が出てくるまでは判断を保留したい。

関連記事