SWE-benchでCursorもClaude Codeも抜いた「無名のツール」の正体 — Augment Intent

2026年4月、AIコーディングツールの性能指標として定着したSWE-bench Proで、見慣れない名前がトップに立った。

Augment Code Intent

51.8%。Cursorの50.2%、Claude Codeの49.8%、OpenAI Codexの46.5%を上回るスコアだ。しかも使っているベースモデルは同じClaude Opus 4.5。同じエンジンを積んでいるのに、結果が違う。

その名前はAugment Code。日本ではほとんど知られていないが、GitHub Copilotとの企業向け案件で70.6%の勝率を叩き出しているという。

「IDEの次」を名乗る理由

Augment Codeが4月にリリースしたのが「Intent」だ。macOS向けのデスクトップアプリで、自らを「IDEの次」と位置づけている。

この主張には根拠がある。Intentはコードエディタではない。複数のAIエージェントを同時に動かし、1つのタスクに対して分業させるための「オーケストレーションワークスペース」だ。

従来のAIコーディングツール — Cursor、Claude Code、Codexなど — は基本的に「1つのAIが1つのタスクに取り組む」設計になっている。開発者がプロンプトを投げ、AIが応答し、開発者がレビューする。1対1の対話だ。

Intentはここを変えた。

3層のエージェント構造

Intentの中では3種類のエージェントが動く。

Coordinator Agent がまず全体の設計図を描く。渡されたタスクの要件を分解し、どのエージェントに何をやらせるかを決める。

Specialist Agent が実際のコードを書く。各エージェントは独立したgit worktreeで作業するため、互いに干渉しない。フロントエンドの修正とバックエンドのAPI変更を、別々のエージェントが同時進行で処理できる。

Verifier Agent が最後に仕事の品質を確認する。コードが仕様に合っているか、テストが通るかをチェックし、問題があればSpecialist Agentに差し戻す。

この3層構造が、同じモデルを使っているのにSWE-benchのスコアで差がつく理由だろう。1つのAIに全部やらせるのと、役割分担させるのでは、出力の精度が変わる。人間のチーム開発と同じ原理だ。

Living Spec — 仕様が勝手に更新される

もう1つの特徴が「Living Spec」という概念。

通常の開発では、仕様書を書いてからコードを書く。だが実装が進むにつれて仕様と現実がずれていく。Intentではこれを逆転させている。エージェントがコードを書き進めるたびに、仕様書（Spec）の方が自動更新される。「今、何が実装されていて、何が残っているか」が常に正確に把握できる。

筆者がこれを面白いと思ったのは、大規模プロジェクトでの実用性が見えるからだ。エンジニア5人のチームで、それぞれがCursorやClaude Codeを使っている状況を想像してほしい。各自がAIに何を作らせたかは、PRが出るまで他のメンバーには見えない。Intentなら、Living Specを見れば全エージェントの進捗と成果物が一目でわかる。

Context Engine — 同じモデルで差がつく仕組み

SWE-benchの差を生んでいるもう1つの要因が、Augment独自の「Context Engine」だ。

Cursorのcodebase indexingに近い概念だが、Augment Codeは50万ファイル規模のコードベースを横断して、関数間の依存関係やサービス間の呼び出し関係を意味的にインデックスする。LLMにコードを投げる前に、関連するコンテキストを正確に絞り込む。

同じClaude Opus 4.5を使っていても、「何を読ませるか」が違えば出力は変わる。モデルの性能ではなく、モデルに渡す情報の質で勝っている。

正直な評価 — 誰にでも勧められるわけではない

ここまで書くと万能ツールに見えるが、現時点では制約も多い。

まず、macOS限定。Windowsは待機リスト。これだけで対象者が半分になる。

次に、ソロ開発者にはオーバースペックだ。個人プロジェクトで複数エージェントのオーケストレーションが必要になるケースはそう多くない。CursorやClaude Codeの方がシンプルで手軽だ。

料金体系もまだ不透明な部分がある。Augmentのクレジット制だが、BYOA（Bring Your Own Agent）モードではClaude CodeやCodexを自分のAPIキーで動かせる。ただしContext Engineの恩恵を受けるにはAugmentのサブスクリプションが必要で、ここの価格感が企業向け寄りだ。

AIコーディングの次のフェーズ

それでも、Intentが示している方向性は重要だと思う。

CursorもWindsurfも、最新バージョンで「並列エージェント」機能を追加している。Cursor 3はAgents Windowで複数エージェントのタイル表示を実現し、Windsurfもワークツリー分離での並列実行を入れた。業界全体が「1つのAIと1対1で対話する」モデルから、「複数のAIを同時に走らせて管理する」モデルへと移行しつつある。

Augment Intentはその先端にいる。IDEにエージェント機能を後付けするのではなく、エージェントオーケストレーションを前提にゼロから設計したツールだからだ。

SWE-benchのスコアが全てではないし、ベンチマークと実務は別物だ。だが「同じモデルで差がつく」という事実は、AIコーディングの競争がモデル性能からツール設計にシフトしていることを示している。この先の数ヶ月で、Augment Intentの名前を見る機会は増えるだろう。

SWE-benchでCursorもClaude Codeも抜いた「無名のツール」の正体 — Augment Intent

「IDEの次」を名乗る理由

3層のエージェント構造

Living Spec — 仕様が勝手に更新される

Context Engine — 同じモデルで差がつく仕組み

正直な評価 — 誰にでも勧められるわけではない

AIコーディングの次のフェーズ

関連記事

GitHub Actionsの次の形 — YAMLの代わりにMarkdownで書く「Agentic Workflows」の全貌

売上が毎月2倍になるAIコーディング企業が出てきた — 評価額$1.5B、Factoryの正体

普通のTypeScriptが「落ちない処理」になる — Vercel Workflows正式リリースの衝撃