AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地

CLIでコードを書かせるAIエージェントは、もう珍しくない。Claude Code、OpenAI Codex CLI、Gemini CLI、Junie CLI——2026年4月時点で選択肢は5つ以上ある。

Grok Build

そこにxAIが「Grok Build」という名前で殴り込みをかけようとしている。ただし、まだ出ていない。

1月から断続的にリーク情報が出ており、Elon Muskが4月16日に「来週出す」と発言してから10日以上が経った。正式リリースはされていないが、コードトレースやTestingCatalogの解析から全体像がかなり見えてきた。正直、設計思想はかなり面白い。

8つのエージェントを同時に走らせる

Grok Buildの最大の特徴は、最大8つのコーディングエージェントを並列で起動できること。

Claude CodeもCodex CLIも、基本的には1つのエージェントが1つのタスクに取り組む。ワークツリーを分けて並列化する手法はあるが、それはユーザー側の工夫であってツール本体の機能ではない（Cursor 3.2がワークツリー対応を入れたのは記憶に新しい）。

Grok Buildはこれを正面から解決しようとしている。同じプロジェクトに対して8つのエージェントが同時にコードを書き、すべての出力がサイドバイサイドで表示される。コンテキスト使用量のトラッカーも付いていて、各エージェントがどれだけトークンを消費しているかも見える。

使い道として想像しやすいのは、1つのバグに対して8通りのアプローチを試すケース。あるエージェントはテストを先に書いてからリファクタリングし、別のエージェントは直接修正に入る。開発者は結果を比較して、最も筋のいい解法を選べる。

もう一つは、大きなプロジェクトで異なるモジュールを同時に開発させるパターン。フロントエンド、バックエンドAPI、データベースマイグレーションを別々のエージェントに割り当てて並行作業させる。

Arena Mode — AIが書いたコードをAIが評価する

並列エージェントだけなら「手動で比較すればいい」で終わるが、Grok Buildにはもう一段ある。Arena Modeだ。

複数のエージェントが出した回答を、アルゴリズムが自動でランク付けする。開発者が目にする時点で、すでに最も品質の高い出力が上位に来ている。

これはChatbot Arenaの発想をコーディングに持ち込んだもので、正直うまくいくかどうかは実際に使ってみないと分からない。コードの「良さ」は文脈依存が強く、ベンチマークスコアが高い解法が実プロジェクトで最適とは限らない。ただ、複数のアプローチを自動で評価してくれるという発想自体は、AIコーディングツールの次のステップとして筋が通っている。

grok-code-fast-1 — 専用モデルの性能

Grok Buildの裏で動くのはgrok-code-fast-1という専用モデル。こちらは既にAPIとして公開されている。

SWE-Bench Verified: 70.8%
コンテキスト長: 256Kトークン
API料金: 入力$0.20/100万トークン、出力$1.50/100万トークン

SWE-Bench 70.8%はClaude Opus 4.7やGPT-5.4 Proと比べると若干見劣りするが、料金の安さが際立つ。Claude Opus 4.7の入力$15/100万トークンと比べると実に75分の1。大量のエージェントを並列で回す設計だからこそ、1エージェントあたりのコストを極限まで下げる必要があったのだろう。

8並列で回しても、Claude Codeで1エージェントを走らせるよりトークン単価が安い。ここにGrok Buildの経済合理性がある。

ローカルファースト — コードを外に出さない

もう一つの明確な設計判断がローカルファースト。ソースコード、認証情報、プロジェクトデータはxAIのサーバーに送信されない。すべてのコード実行が開発者のマシン上で行われる。

これはClaude Codeと同じアプローチだが、OpenAI Codex CLIがクラウドサンドボックスで実行するのとは対照的。企業のセキュリティポリシー上、コードを外部に送信できないケースは多い。その層を取りに行く判断は理にかなっている。

インストールはnpm install -g grok-buildで、grok-build initを叩くとローカルエージェントが起動する。WebSocket接続でCLIとオプションのWeb UIを同期する設計になっているらしい。

料金体系はクレジット制

TestingCatalogの解析によると、料金はクレジットベースになる見込み。既存のGrok/SuperGrokプランにクレジットが付帯し、使い切った場合はオンデマンドで追加購入する形式。

具体的な価格は未公表だが、8並列エージェントをフル稼働させると消費量はかなりのものになるはず。ここの設計次第で、Grok Buildが「安くて大量に回せるツール」になるか「結局高くつくツール」になるかが分かれる。

で、いつ出るのか

ここが一番の問題だ。

xAIは2026年1月からGrok Buildの存在をちらつかせてきた。2月にはArena Modeのコードトレースが発見され、4月16日にMuskが「来週出す」と発言した。4月27日現在、まだ出ていない。

xAIのリリーススケジュールは歴史的に予測が難しい。Grok Computerも発表から実際に使えるようになるまで時間がかかった。期待しすぎず、出たら触ってみるくらいのスタンスが正解だと思う。

既存ツールとの立ち位置

今すぐCLIコーディングエージェントが必要なら、Claude CodeかOpenAI Codex CLIを使うのが現実的な選択肢。どちらも成熟しており、エコシステムも充実している。

ただ、Grok Buildが実際にリリースされた場合、8並列エージェント+Arena Modeという組み合わせは他にない。Claude Codeのサブエージェントも並列実行はできるが、「同じタスクに複数のアプローチを試して自動評価する」という機能は持っていない。

もう一つ注目すべきは、xAIがSpaceXと統合された後のインフラ。Colossus（xAIのスーパーコンピュータクラスタ）の計算資源を使って推論コストを下げられるなら、「安い専用モデルを大量に並列で回す」という戦略は他社には真似しにくい。

正直に言えば、「出てから評価する」フェーズのツール。でも設計思想は、AIコーディングツールの次の競争軸を示している。リリースされたら改めて実機レビューを書く予定だ。

AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地

8つのエージェントを同時に走らせる

Arena Mode — AIが書いたコードをAIが評価する

grok-code-fast-1 — 専用モデルの性能

ローカルファースト — コードを外に出さない

料金体系はクレジット制

で、いつ出るのか

既存ツールとの立ち位置

関連記事

「終わるまで自分で直す」AIコーディング — Grok Build /goalが検証まで自動化する

Grok Buildが「プラグインストア」を開いた — Claude CodeのMCPエコシステムに真正面から挑む6つのプラグイン

Claude CodeとGrok Build、どっちを選ぶ？ — ターミナルAIコーディングの二択を整理する