SWE-benchでCursorもClaude Codeも抜いた「無名のツール」の正体 — Augment Intent
2026年4月、AIコーディングツールの性能指標として定着したSWE-bench Proで、見慣れない名前がトップに立った。

51.8%。Cursorの50.2%、Claude Codeの49.8%、OpenAI Codexの46.5%を上回るスコアだ。しかも使っているベースモデルは同じClaude Opus 4.5。同じエンジンを積んでいるのに、結果が違う。
その名前はAugment Code。日本ではほとんど知られていないが、GitHub Copilotとの企業向け案件で70.6%の勝率を叩き出しているという。
「IDEの次」を名乗る理由
Augment Codeが4月にリリースしたのが「Intent」だ。macOS向けのデスクトップアプリで、自らを「IDEの次」と位置づけている。
この主張には根拠がある。Intentはコードエディタではない。複数のAIエージェントを同時に動かし、1つのタスクに対して分業させるための「オーケストレーションワークスペース」だ。
従来のAIコーディングツール — Cursor、Claude Code、Codexなど — は基本的に「1つのAIが1つのタスクに取り組む」設計になっている。開発者がプロンプトを投げ、AIが応答し、開発者がレビューする。1対1の対話だ。
Intentはここを変えた。
3層のエージェント構造
Intentの中では3種類のエージェントが動く。
Coordinator Agent がまず全体の設計図を描く。渡されたタスクの要件を分解し、どのエージェントに何をやらせるかを決める。
Specialist Agent が実際のコードを書く。各エージェントは独立したgit worktreeで作業するため、互いに干渉しない。フロントエンドの修正とバックエンドのAPI変更を、別々のエージェントが同時進行で処理できる。
Verifier Agent が最後に仕事の品質を確認する。コードが仕様に合っているか、テストが通るかをチェックし、問題があればSpecialist Agentに差し戻す。
この3層構造が、同じモデルを使っているのにSWE-benchのスコアで差がつく理由だろう。1つのAIに全部やらせるのと、役割分担させるのでは、出力の精度が変わる。人間のチーム開発と同じ原理だ。
Living Spec — 仕様が勝手に更新される
もう1つの特徴が「Living Spec」という概念。
通常の開発では、仕様書を書いてからコードを書く。だが実装が進むにつれて仕様と現実がずれていく。Intentではこれを逆転させている。エージェントがコードを書き進めるたびに、仕様書(Spec)の方が自動更新される。「今、何が実装されていて、何が残っているか」が常に正確に把握できる。
筆者がこれを面白いと思ったのは、大規模プロジェクトでの実用性が見えるからだ。エンジニア5人のチームで、それぞれがCursorやClaude Codeを使っている状況を想像してほしい。各自がAIに何を作らせたかは、PRが出るまで他のメンバーには見えない。Intentなら、Living Specを見れば全エージェントの進捗と成果物が一目でわかる。
Context Engine — 同じモデルで差がつく仕組み
SWE-benchの差を生んでいるもう1つの要因が、Augment独自の「Context Engine」だ。
Cursorのcodebase indexingに近い概念だが、Augment Codeは50万ファイル規模のコードベースを横断して、関数間の依存関係やサービス間の呼び出し関係を意味的にインデックスする。LLMにコードを投げる前に、関連するコンテキストを正確に絞り込む。
同じClaude Opus 4.5を使っていても、「何を読ませるか」が違えば出力は変わる。モデルの性能ではなく、モデルに渡す情報の質で勝っている。
正直な評価 — 誰にでも勧められるわけではない
ここまで書くと万能ツールに見えるが、現時点では制約も多い。
まず、macOS限定。Windowsは待機リスト。これだけで対象者が半分になる。
次に、ソロ開発者にはオーバースペックだ。個人プロジェクトで複数エージェントのオーケストレーションが必要になるケースはそう多くない。CursorやClaude Codeの方がシンプルで手軽だ。
料金体系もまだ不透明な部分がある。Augmentのクレジット制だが、BYOA(Bring Your Own Agent)モードではClaude CodeやCodexを自分のAPIキーで動かせる。ただしContext Engineの恩恵を受けるにはAugmentのサブスクリプションが必要で、ここの価格感が企業向け寄りだ。
AIコーディングの次のフェーズ
それでも、Intentが示している方向性は重要だと思う。
CursorもWindsurfも、最新バージョンで「並列エージェント」機能を追加している。Cursor 3はAgents Windowで複数エージェントのタイル表示を実現し、Windsurfもワークツリー分離での並列実行を入れた。業界全体が「1つのAIと1対1で対話する」モデルから、「複数のAIを同時に走らせて管理する」モデルへと移行しつつある。
Augment Intentはその先端にいる。IDEにエージェント機能を後付けするのではなく、エージェントオーケストレーションを前提にゼロから設計したツールだからだ。
SWE-benchのスコアが全てではないし、ベンチマークと実務は別物だ。だが「同じモデルで差がつく」という事実は、AIコーディングの競争がモデル性能からツール設計にシフトしていることを示している。この先の数ヶ月で、Augment Intentの名前を見る機会は増えるだろう。
関連記事
GitHub Actionsの次の形 — YAMLの代わりにMarkdownで書く「Agentic Workflows」の全貌
GitHub Agentic WorkflowsはMarkdownでCI/CDを記述する新パラダイム。仕組み、safe-outputs、セキュリティ設計、制約を解説。
売上が毎月2倍になるAIコーディング企業が出てきた — 評価額$1.5B、Factoryの正体
Factory.aiが$150M調達で評価額$1.5Bに。AIエージェント「Droids」でコード生成からテスト・デプロイまで自動化するエンタープライズ向けプラットフォームの実力を解説する。
普通のTypeScriptが「落ちない処理」になる — Vercel Workflows正式リリースの衝撃
Vercel Workflowsが正式リリース。async/awaitを書くだけで耐久実行を実現する新プログラミングモデルの仕組み、4つの抽象化、AIエージェント開発への影響を解説する。