「終わるまで自分で直す」AIコーディング — Grok Build /goalが検証まで自動化する
Claude Codeの動的ワークフロー、Cursorの/automateコマンド、CodexのGoal Mode。ターミナルAIコーディングは今、「目標を渡して放置する」方向に一斉に動いている。
6月22日、xAIがその競争に加わった。Grok Buildに追加された/goalは、高レベルの目標を渡すと計画・実装・検証までを自律的に回すモードだ。
渡すのは「ゴール」だけ
/goalの使い方はシンプル。ターミナルで/goalコマンドを打ち、やりたいことを自然言語で伝える。「このAPIにレート制限を追加して、テストも書いて」のような粒度でいい。
すると、まずアプローチを計画し、進捗チェックリストを生成する。そのまま実装に入り、コードを書き、テストを走らせ、問題があれば修正する。ユーザーはその間ロックアウトされない。作業中に「やっぱりこっちの方針で」と追加指示を差し込むこともできる。
ここまでなら他のツールでもできる。/goalが面白いのは、完了の定義に検証が組み込まれている点だ。
「できた」と「正しい」を分けない
従来のAIコーディングツールは、コードを書いて「できました」と返す。テストが通ったかどうか、Webページが正しく表示されるかは、ユーザーが確認する必要があった。
/goalはそこを変えた。タスクが「完了」と判定されるには、コードの生成だけでなく、レビュー・スクリプト実行・Webページの目視確認(ブラウザ操作を含む)のいずれかで検証まで終える必要がある。検証で問題が見つかれば、自動で修正ループに入る。
xAIはこのアプローチを「実行と検証の分離」ではなく「実行に検証を埋め込む」と説明している。開発者の自然なワークフロー——書いて、動かして、直して——をAIがまるごとシミュレートする設計だ。
マルチモデルで動く
内部アーキテクチャも独特だ。/goalは単一モデルではなく、Composer 2.5とGrok Build 0.1の2モデルを使い分ける。計画・判断にはComposer 2.5、コード生成・ツール操作にはGrok Build 0.1が担当するマルチモデルパイプラインになっている。
複数のモデルを段階ごとに切り替えるアプローチは、Cursor 3のComposerモデル切り替えやDevinのSWE-1.6にも共通する潮流だ。1つの万能モデルよりも、特化モデルの組み合わせのほうが結果がいい——という実験結果が業界全体で共有され始めている。
Claude Codeとの距離
正直なところ、Claude Codeの動的ワークフロー(/goalコマンド + サブエージェント)とやっていることは似ている。どちらも「目標を渡して自律実行」という同じコンセプトだ。
違いがあるとすれば、検証のアプローチ。Claude Codeはサブエージェントの階層で作業を分割し、メインエージェントが全体を監督する。一方、Grok Buildはパイプラインとして計画→実装→検証を直列に流す。どちらが優れているかはタスクの性質による。並列で複数ファイルを触る大規模リファクタリングならClaude Code、単一機能の追加+検証ならGrok Buildのほうが向いているだろう。
もう一つの差はエコシステムだ。Grok BuildはSpaceXのColossusクラスタ上で動いており、レート制限の緩さが特徴。一方で、MCP対応やプラグインの数ではClaude CodeやCursorに及ばない。
今すぐ使える、ただし
/goalはGrok Buildユーザーなら今日から使える。SuperGrokプラン(月$30 / 約4,500円)に含まれ、追加料金はない。
期待値は調整しておいたほうがいい。自律実行系の機能は、プロンプトの書き方でパフォーマンスが大きく変わる。「レート制限を追加して」と書くのと「Express.jsのAPIルートにIPベースのレート制限を追加し、429を返すテストを書いて」と書くのでは結果が違う。ゴールは高レベルでいいが、具体的であるほど成功率が上がるはずだ。
ターミナルAIコーディングの「自律化」は、もう特定のツールの専売特許ではなくなった。競争のフェーズが「モデルの賢さ」から「ワークフロー設計」に移りつつある。
関連記事
Grok Buildが「プラグインストア」を開いた — Claude CodeのMCPエコシステムに真正面から挑む6つのプラグイン
Grok Buildにプラグインマーケットプレイスがベータ公開。MongoDB・Vercel・Sentry等6種の内容、インストール方法、Claude CodeのMCPとの違いを解説。
Claude CodeとGrok Build、どっちを選ぶ? — ターミナルAIコーディングの二択を整理する
Claude CodeとGrok Buildを料金・ベンチマーク・MCP互換性・並列エージェントの4軸で比較。ターミナルAIコーディングCLIの選び方を解説する。
AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地
xAI開発中のGrok Buildを解説。8並列AIとArena Modeで解法を自動評価するCLIツールの全容。