AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地
CLIでコードを書かせるAIエージェントは、もう珍しくない。Claude Code、OpenAI Codex CLI、Gemini CLI、Junie CLI——2026年4月時点で選択肢は5つ以上ある。
そこにxAIが「Grok Build」という名前で殴り込みをかけようとしている。ただし、まだ出ていない。
1月から断続的にリーク情報が出ており、Elon Muskが4月16日に「来週出す」と発言してから10日以上が経った。正式リリースはされていないが、コードトレースやTestingCatalogの解析から全体像がかなり見えてきた。正直、設計思想はかなり面白い。
8つのエージェントを同時に走らせる
Grok Buildの最大の特徴は、最大8つのコーディングエージェントを並列で起動できること。
Claude CodeもCodex CLIも、基本的には1つのエージェントが1つのタスクに取り組む。ワークツリーを分けて並列化する手法はあるが、それはユーザー側の工夫であってツール本体の機能ではない(Cursor 3.2がワークツリー対応を入れたのは記憶に新しい)。
Grok Buildはこれを正面から解決しようとしている。同じプロジェクトに対して8つのエージェントが同時にコードを書き、すべての出力がサイドバイサイドで表示される。コンテキスト使用量のトラッカーも付いていて、各エージェントがどれだけトークンを消費しているかも見える。
使い道として想像しやすいのは、1つのバグに対して8通りのアプローチを試すケース。あるエージェントはテストを先に書いてからリファクタリングし、別のエージェントは直接修正に入る。開発者は結果を比較して、最も筋のいい解法を選べる。
もう一つは、大きなプロジェクトで異なるモジュールを同時に開発させるパターン。フロントエンド、バックエンドAPI、データベースマイグレーションを別々のエージェントに割り当てて並行作業させる。
Arena Mode — AIが書いたコードをAIが評価する
並列エージェントだけなら「手動で比較すればいい」で終わるが、Grok Buildにはもう一段ある。Arena Modeだ。
複数のエージェントが出した回答を、アルゴリズムが自動でランク付けする。開発者が目にする時点で、すでに最も品質の高い出力が上位に来ている。
これはChatbot Arenaの発想をコーディングに持ち込んだもので、正直うまくいくかどうかは実際に使ってみないと分からない。コードの「良さ」は文脈依存が強く、ベンチマークスコアが高い解法が実プロジェクトで最適とは限らない。ただ、複数のアプローチを自動で評価してくれるという発想自体は、AIコーディングツールの次のステップとして筋が通っている。
grok-code-fast-1 — 専用モデルの性能
Grok Buildの裏で動くのはgrok-code-fast-1という専用モデル。こちらは既にAPIとして公開されている。
- SWE-Bench Verified: 70.8%
- コンテキスト長: 256Kトークン
- API料金: 入力$0.20/100万トークン、出力$1.50/100万トークン
SWE-Bench 70.8%はClaude Opus 4.7やGPT-5.4 Proと比べると若干見劣りするが、料金の安さが際立つ。Claude Opus 4.7の入力$15/100万トークンと比べると実に75分の1。大量のエージェントを並列で回す設計だからこそ、1エージェントあたりのコストを極限まで下げる必要があったのだろう。
8並列で回しても、Claude Codeで1エージェントを走らせるよりトークン単価が安い。ここにGrok Buildの経済合理性がある。
ローカルファースト — コードを外に出さない
もう一つの明確な設計判断がローカルファースト。ソースコード、認証情報、プロジェクトデータはxAIのサーバーに送信されない。すべてのコード実行が開発者のマシン上で行われる。
これはClaude Codeと同じアプローチだが、OpenAI Codex CLIがクラウドサンドボックスで実行するのとは対照的。企業のセキュリティポリシー上、コードを外部に送信できないケースは多い。その層を取りに行く判断は理にかなっている。
インストールはnpm install -g grok-buildで、grok-build initを叩くとローカルエージェントが起動する。WebSocket接続でCLIとオプションのWeb UIを同期する設計になっているらしい。
料金体系はクレジット制
TestingCatalogの解析によると、料金はクレジットベースになる見込み。既存のGrok/SuperGrokプランにクレジットが付帯し、使い切った場合はオンデマンドで追加購入する形式。
具体的な価格は未公表だが、8並列エージェントをフル稼働させると消費量はかなりのものになるはず。ここの設計次第で、Grok Buildが「安くて大量に回せるツール」になるか「結局高くつくツール」になるかが分かれる。
で、いつ出るのか
ここが一番の問題だ。
xAIは2026年1月からGrok Buildの存在をちらつかせてきた。2月にはArena Modeのコードトレースが発見され、4月16日にMuskが「来週出す」と発言した。4月27日現在、まだ出ていない。
xAIのリリーススケジュールは歴史的に予測が難しい。Grok Computerも発表から実際に使えるようになるまで時間がかかった。期待しすぎず、出たら触ってみるくらいのスタンスが正解だと思う。
既存ツールとの立ち位置
今すぐCLIコーディングエージェントが必要なら、Claude CodeかOpenAI Codex CLIを使うのが現実的な選択肢。どちらも成熟しており、エコシステムも充実している。
ただ、Grok Buildが実際にリリースされた場合、8並列エージェント+Arena Modeという組み合わせは他にない。Claude Codeのサブエージェントも並列実行はできるが、「同じタスクに複数のアプローチを試して自動評価する」という機能は持っていない。
もう一つ注目すべきは、xAIがSpaceXと統合された後のインフラ。Colossus(xAIのスーパーコンピュータクラスタ)の計算資源を使って推論コストを下げられるなら、「安い専用モデルを大量に並列で回す」という戦略は他社には真似しにくい。
正直に言えば、「出てから評価する」フェーズのツール。でも設計思想は、AIコーディングツールの次の競争軸を示している。リリースされたら改めて実機レビューを書く予定だ。
関連記事
電話営業の成約率20%、サポート解決率70% — xAIの音声エージェントがStarlinkで出した実績
xAIの音声エージェントモデルgrok-voice-think-fast-1.0はStarlinkの電話営業・サポートで実績を出した。バックグラウンド推論の仕組みと実力を解説。
APIもない10年前のソフトすら動かせる — Grok Computerという「画面を見るAI」の異質さ
xAIのGrok Computerは画面のピクセルを読み取ってPCを自律操作するAIエージェント。Perplexity ComputerやClaude Coworkとの違い、Macrohard構想の全体像を整理する。
Grok 4.20 — 「4つの頭脳が議論してから答える」AIは、ハルシネーションを終わらせるか
xAIのGrok 4.20を解説。4エージェント合議で業界最高の非ハルシネーション率78%を達成した仕組み、SuperGrok Heavyの16エージェント構成、料金、週次改善アーキテクチャの実態を紹介