AIモデルを「ブラインド試験」で選ばせるWindsurf — Wave 13のArena ModeとPlan Modeの本気度
「結局どのAIモデルが、自分のコードベースに一番強いのか」を、ちゃんと答えられる人はあまりいない。Twitterで誰かが言っていた評価、自分の感覚的な印象、ベンチマークサイトのスコア、料金。情報はあるのに、それぞれの軸がバラバラで、判断が鈍る。
Windsurfが先日リリースしたWave 13は、ここに正面から手を入れてきた。Arena Mode——2つのモデルを同じプロンプトで並列に走らせ、結果を見比べてから「どっちが良かったか」を投票し、その後で初めてどちらがどのモデルだったかが開示される。要するに、IDE内蔵のブラインド試験だ。
新しいトリックは2つ:Arena Modeと、その姉妹機能のPlan Mode。それと地味に重要な変更として、デフォルトモデルがSWE-1.5に切り替わっている。
Arena Mode — モデル選びの「思い込み」を外しに来た
Arena Modeを起動すると、Cascade(WindsurfのAIエージェント機能)が2つ立ち上がる。同じプロンプト、同じワークスペース、同じツール権限。違うのは、裏で動いているモデルだけ。両者の出力は左右に並んで表示されるが、この時点ではどちらがどのモデルかは隠されている。
ユーザーは結果を見比べて、好きな方に投票する。投票後にようやく「左はGPT、右はClaudeでした」みたいに正体が開示される仕組みだ。
なぜこれが面白いか。AIモデル選定はかなりの部分、ブランドのバイアスで決まっている。「ClaudeはRefactoringが強い」「GPTはアルゴリズム系が得意」——どれも事実の側面はあるが、自分のコードベース・自分のタスクで本当にそうかを検証した人は少ない。Arena Modeは、そのブランド由来の決め打ちを一度剥がして、結果だけで選ばせる。
これは料金プランが「使ったクオータの量で決まる」現在のWindsurfにとって、合理的な機能でもある。賢いモデル選定ができればクオータの無駄遣いが減るし、結果的にコストが下がる。Windsurfのビジネスにとってもユーザー体験にとってもwin-winだ。
ちなみに、各回の投票データはWindsurf側にも蓄積される(オプトイン)。長期的には「特定のタスクではモデルAが優位」「特定のフレームワークではモデルBが優位」みたいな知見が、Windsurfのデフォルト選択ロジックに反映されていくはずだ。
Plan Mode — コードを書く前に「全体の地図」を描かせる
もう1つの新機能、Plan Modeはトーンが違う。こっちは「いきなりコードを書かせない」発想だ。
普段のCascadeは、プロンプトを受け取ったらほぼ即座に編集を始める。場合によっては「とりあえず1ファイル直して、エラーを見て、また直して」を繰り返しながら正解を探す。これは早い場面では強いが、タスクが複雑な場合、途中で目的地を見失った長文コミットを生みがちだ。
Plan Modeでは、Cascadeが最初にタスクの全体像を構造化した「計画書」として提示する。
- 何を変更するか
- どのファイルを触るか
- どんな順序で進めるか
- 何が依存していて、何を後回しにできるか
ユーザーは計画を確認・修正してからGoサインを出す。実装フェーズに入ってから「あ、それじゃない」と止める無駄が減る。トークン消費(=クオータ消費)も大幅に節約できる。
おもしろい小ネタとして、プロンプトに megaplan というキーワードを混ぜると、Plan Modeがさらに詳細な計画モードに入る。隠しコマンドとしてWindsurfコミュニティでちょっと話題になっていた。
そして注目すべきは、Arena ModeとPlan Modeが互換であること。Plan Modeでもブラインドモデル比較ができる。 「同じタスクをモデルAに計画させたら、モデルBに計画させたら、どっちがマシな計画を出すか」を見比べられる。これは結構効く。
SWE-1.5、新しいデフォルト
Wave 13で地味に大きい変更が、デフォルトモデルがSWE-1.5になっている点。SWEシリーズはWindsurfがCognition傘下で開発を続けているコーディング特化モデルだ。
これまでデフォルトを担っていたSWE-1.0系から、コードベース全体の理解力・長期コンテキストの保持・テスト生成あたりが強化されているとのこと。具体的なベンチ比較は公式が出しているが、体感としては「無駄なファイル横断の往復が減った」あたりが一番分かりやすい変化だろう。
クオータベースの料金体系(2026年3月から)と組み合わせると、SWE-1.5は内製ゆえに推論コストが安く、ユーザーから見ても「クオータの目減りが緩い」モデルとして使い勝手がいい。
CursorやClaude Codeとどう違うか
ここが書いておきたい一番のポイント。
CursorやClaude Codeも内部では複数モデルをサポートしているが、「同時並列で2モデルを走らせて結果をブラインド比較」というUI構造を表に出してきたのは、Wave 13のWindsurfが事実上初めてだ。Cursorの3.0では「Multi-Agent Judging」のような近い概念が出ているものの、これは複数エージェントの結果を別エージェントが審査する仕組みで、ユーザー自身の主観判断を媒介にする設計ではない。
Plan Modeの方も、Claude Codeにはcompactや初期のplan系コマンドがあったし、Cursorにもタスク分解の仕組みはある。だがWindsurfの実装は「計画書を編集してからコードを書く」というワークフローを正面から推している点が違う。これは小さな差に見えて、実際にプロジェクトを進める時の安心感がかなり違ってくる。
要するに、Wave 13でのWindsurfの賭けは「モデル選定の透明性 × タスクの計画性」の2軸。AI IDE全体が「とにかく速く、とにかく自動で」を競ってきた中で、あえて「ユーザーに考える余地を返す」という方向に舵を切ったように見える。
微妙な点
正直に書いておく。
- Arena Modeは「並列で2モデル動かす」ので、その分だけクオータを多く消費する。 比較結果の価値は高いが、毎回やっていたら月のクオータがすぐ尽きる。「重要な選定ポイントだけ使う」運用が現実的
- Plan Modeは慣れが必要。 毎回計画書を読んで承認するのは、最初のうち「面倒くさい」と感じる。シンプルな修正タスクでは普通モードの方が速い
- クオータベース料金との相性は二面性がある。 計画的に動けば節約できるが、ブラインド比較を多用するとむしろ増える。新料金で余裕がない人にはストレス源になる可能性
- ブラインド比較の結果を「ユーザー主観」だけに頼っている。 客観的な指標(コンパイル成功率、テスト通過率、行数)を組み合わせた採点モードがあれば、もっと使いやすくなりそう
それでも、IDE業界に与える影響は大きい
Arena Modeの「結果から逆算してモデルを選ぶ」発想は、いずれ他のIDEにも逆輸入されると思う。これがUIとして当たり前になれば、エンドユーザー側で特定モデルへのロックインが弱まる。Anthropic、OpenAI、Googleにとっては「自分たちのモデルが選ばれ続ける必然性」がなくなる、ということでもある。
中長期的には、IDEがモデル選びの「中立な裁定者」になるシナリオが見えてくる。Windsurfはその役割を取りに行っているとも読める。
公式のWindsurf ChangelogにWave 13のリリースノートがまとまっている。Wave 13は無料プランでも使えるが、Arena Modeを試すならクオータに余裕のあるPro以上が現実的だ。
関連記事
月額20ドルのエージェントIDEが3つ並んだ — Cursor 3・Windsurf 2・Devin 2、何が違うのか
Cursor 3・Windsurf 2・Devin 2を比較。月額20ドルに揃ったAI IDEの設計思想の違いと選び方。
Windsurf 2.0、Devinを飲み込んだ — 「ローカル+クラウド」でCursorと真逆の道を行く
Windsurf 2.0はAgent Command CenterとDevin統合で「ローカル+クラウドハイブリッド」のIDE戦略を打ち出した。Cursor 3.1との設計思想の違いと実用面を整理する。
AWSが「仕様書を先に書くAI IDE」を出した — Kiroの設計思想とCursorとの違い
AWS製AI IDE Kiroは仕様書を先に作る逆転設計。料金やCursorとの使い分けを整理した。