Cursor 3.6、「承認ボタン連打」の時代を終わらせにきた — Auto-Reviewという妥協点

AIコーディングエージェントを使っていると、ある瞬間が来る。「もう全部許可でいいよ」と思う瞬間だ。

ファイルを読む。許可。コマンドを実行する。許可。テストを走らせる。許可。APIを呼ぶ。許可。1つのタスクを終えるまでに十数回の承認ボタンを押す。正直、途中から中身を読まずにクリックしている。

かといって「全部自動実行」にすると怖い。知らないうちにgit push --forceされたり、本番のAPIを叩かれたりする可能性がある。

Cursor 3.6が5月29日にリリースした「Auto-Review」は、この承認疲れと安全性のジレンマに対する一つの答えだ。

3層構造で「判断の粒度」を分ける

Auto-Reviewのアプローチはシンプルに言えば「全部聞くのをやめる。でも全部任せるわけでもない」。

エージェントがShell、MCP、Fetchのいずれかを呼び出すたびに、3つのチェックを上から順に通す。

第1層: 許可リスト（Allowlist）。 あらかじめ登録したコマンドやMCPツールは即座に実行される。たとえば npm test、git status、ファイルの読み取り系。危険性がないと分かっているものは聞かない。

第2層: サンドボックス。 許可リストにないが、隔離環境で実行可能なものはサンドボックスで動かす。ネットワークとファイルシステムに制限がかかった状態での実行なので、仮に暴走しても被害が限定される。

第3層: 分類サブエージェント。 許可リストにもサンドボックスにも当てはまらないもの。ここで小さなAIモデル（クラシファイア）が起動し、そのコマンドが安全か、別のアプローチを取るべきか、ユーザーに聞くべきかを判断する。

つまり「確実に安全 → たぶん安全（隔離で保証）→ わからないからAIに判断させる → 本当にわからなければ人間に聞く」という段階を踏む。

従来のCursorには「Manual」（全部聞く）と「YOLO」（何も聞かない）の2択しかなかった。正確にはサンドボックスモードもあったが、使い分けが面倒だった。

Auto-Reviewを有効にすると、日常的なコーディングセッションでの承認プロンプトは体感で7〜8割減る。ls、cat、npm install、テスト実行、lint実行あたりは許可リストかサンドボックスで処理されるからだ。

一方で、rm -rf、環境変数への書き込み、外部APIへのPOSTリクエスト、git pushのような破壊的操作は分類サブエージェントの判断を経て、多くの場合ユーザーに確認が来る。

面白いのは、分類サブエージェントにカスタム指示を渡せる点だ。

Settings > Cursor Settings > Agents > Run Modeから設定できる。たとえば「このプロジェクトではDockerコマンドは全て許可して」「本番環境のAWSコマンドだけは必ず聞いて」といった指示を自然言語で与えられる。

プロジェクトの性質によって安全の境界線は異なる。ローカルの個人プロジェクトなら大半を許可していいが、本番DBに接続する業務プロジェクトでは慎重になりたい。その匙加減を指示で調整できるのは実用的だ。

Claude Codeには既に許可設定（allowedTools、bash許可パターン）があるが、判断のAI化はされていない。人間が事前にパターンを書くか、全許可か、毎回確認かの3択。

OpenAI Codexはサンドボックス前提の設計で、全コマンドが隔離コンテナで動く。安全だが、ネットワーク接続が必要な操作やローカルファイルへの反映にラグが出る。

Cursorの「AI分類による中間判断」は第三の道を提示している。完全隔離のコストを払わず、かといって人間の負荷も減らす。ただし、分類サブエージェント自体の判断精度が重要になる。ここが誤判断すれば「安全だと思って通したら危険だった」というケースが起こりうる。

良い点は明確だ。あの「許可ボタン連打」から解放される。長時間のリファクタリングやテスト修正のような、安全だけど手数が多いタスクを流しっぱなしにできる。

懸念もある。分類サブエージェントの判断品質はブラックボックスで、なぜ許可されたのか・なぜ止められたのかの説明がない。また、サブエージェント自体がトークンを消費するので、Proプランのクレジットへの影響は気になる点だ。

それでも方向性は正しいと思う。AIコーディングエージェントが「常に横で聞いてくる新人」から「信頼できる同僚」に近づくためには、こういう段階的な自律性の獲得が必要だ。全権委任か完全監視かの二択では、どちらも実用に向かない。

Cursor 3.6のAuto-Reviewは、その中間地点を「AIが判断する」という方法で埋めた最初の本格的な試みだろう。