FlowTune Media

AIモデルを「ブラインド試験」で選ばせるWindsurf — Wave 13のArena ModeとPlan Modeの本気度

「結局どのAIモデルが、自分のコードベースに一番強いのか」を、ちゃんと答えられる人はあまりいない。Twitterで誰かが言っていた評価、自分の感覚的な印象、ベンチマークサイトのスコア、料金。情報はあるのに、それぞれの軸がバラバラで、判断が鈍る。

Windsurfが先日リリースしたWave 13は、ここに正面から手を入れてきた。Arena Mode——2つのモデルを同じプロンプトで並列に走らせ、結果を見比べてから「どっちが良かったか」を投票し、その後で初めてどちらがどのモデルだったかが開示される。要するに、IDE内蔵のブラインド試験だ。

新しいトリックは2つ:Arena Modeと、その姉妹機能のPlan Mode。それと地味に重要な変更として、デフォルトモデルがSWE-1.5に切り替わっている。

Arena Mode — モデル選びの「思い込み」を外しに来た

Arena Modeを起動すると、Cascade(WindsurfのAIエージェント機能)が2つ立ち上がる。同じプロンプト、同じワークスペース、同じツール権限。違うのは、裏で動いているモデルだけ。両者の出力は左右に並んで表示されるが、この時点ではどちらがどのモデルかは隠されている

ユーザーは結果を見比べて、好きな方に投票する。投票後にようやく「左はGPT、右はClaudeでした」みたいに正体が開示される仕組みだ。

なぜこれが面白いか。AIモデル選定はかなりの部分、ブランドのバイアスで決まっている。「ClaudeはRefactoringが強い」「GPTはアルゴリズム系が得意」——どれも事実の側面はあるが、自分のコードベース・自分のタスクで本当にそうかを検証した人は少ない。Arena Modeは、そのブランド由来の決め打ちを一度剥がして、結果だけで選ばせる

これは料金プランが「使ったクオータの量で決まる」現在のWindsurfにとって、合理的な機能でもある。賢いモデル選定ができればクオータの無駄遣いが減るし、結果的にコストが下がる。Windsurfのビジネスにとってもユーザー体験にとってもwin-winだ。

ちなみに、各回の投票データはWindsurf側にも蓄積される(オプトイン)。長期的には「特定のタスクではモデルAが優位」「特定のフレームワークではモデルBが優位」みたいな知見が、Windsurfのデフォルト選択ロジックに反映されていくはずだ。

Plan Mode — コードを書く前に「全体の地図」を描かせる

もう1つの新機能、Plan Modeはトーンが違う。こっちは「いきなりコードを書かせない」発想だ。

普段のCascadeは、プロンプトを受け取ったらほぼ即座に編集を始める。場合によっては「とりあえず1ファイル直して、エラーを見て、また直して」を繰り返しながら正解を探す。これは早い場面では強いが、タスクが複雑な場合、途中で目的地を見失った長文コミットを生みがちだ。

Plan Modeでは、Cascadeが最初にタスクの全体像を構造化した「計画書」として提示する。

  • 何を変更するか
  • どのファイルを触るか
  • どんな順序で進めるか
  • 何が依存していて、何を後回しにできるか

ユーザーは計画を確認・修正してからGoサインを出す。実装フェーズに入ってから「あ、それじゃない」と止める無駄が減る。トークン消費(=クオータ消費)も大幅に節約できる。

おもしろい小ネタとして、プロンプトに megaplan というキーワードを混ぜると、Plan Modeがさらに詳細な計画モードに入る。隠しコマンドとしてWindsurfコミュニティでちょっと話題になっていた。

そして注目すべきは、Arena ModeとPlan Modeが互換であること。Plan Modeでもブラインドモデル比較ができる。 「同じタスクをモデルAに計画させたら、モデルBに計画させたら、どっちがマシな計画を出すか」を見比べられる。これは結構効く。

SWE-1.5、新しいデフォルト

Wave 13で地味に大きい変更が、デフォルトモデルがSWE-1.5になっている点。SWEシリーズはWindsurfがCognition傘下で開発を続けているコーディング特化モデルだ。

これまでデフォルトを担っていたSWE-1.0系から、コードベース全体の理解力・長期コンテキストの保持・テスト生成あたりが強化されているとのこと。具体的なベンチ比較は公式が出しているが、体感としては「無駄なファイル横断の往復が減った」あたりが一番分かりやすい変化だろう。

クオータベースの料金体系(2026年3月から)と組み合わせると、SWE-1.5は内製ゆえに推論コストが安く、ユーザーから見ても「クオータの目減りが緩い」モデルとして使い勝手がいい。

CursorやClaude Codeとどう違うか

ここが書いておきたい一番のポイント。

CursorやClaude Codeも内部では複数モデルをサポートしているが、「同時並列で2モデルを走らせて結果をブラインド比較」というUI構造を表に出してきたのは、Wave 13のWindsurfが事実上初めてだ。Cursorの3.0では「Multi-Agent Judging」のような近い概念が出ているものの、これは複数エージェントの結果を別エージェントが審査する仕組みで、ユーザー自身の主観判断を媒介にする設計ではない。

Plan Modeの方も、Claude Codeにはcompactや初期のplan系コマンドがあったし、Cursorにもタスク分解の仕組みはある。だがWindsurfの実装は「計画書を編集してからコードを書く」というワークフローを正面から推している点が違う。これは小さな差に見えて、実際にプロジェクトを進める時の安心感がかなり違ってくる。

要するに、Wave 13でのWindsurfの賭けは「モデル選定の透明性 × タスクの計画性」の2軸。AI IDE全体が「とにかく速く、とにかく自動で」を競ってきた中で、あえて「ユーザーに考える余地を返す」という方向に舵を切ったように見える。

微妙な点

正直に書いておく。

  • Arena Modeは「並列で2モデル動かす」ので、その分だけクオータを多く消費する。 比較結果の価値は高いが、毎回やっていたら月のクオータがすぐ尽きる。「重要な選定ポイントだけ使う」運用が現実的
  • Plan Modeは慣れが必要。 毎回計画書を読んで承認するのは、最初のうち「面倒くさい」と感じる。シンプルな修正タスクでは普通モードの方が速い
  • クオータベース料金との相性は二面性がある。 計画的に動けば節約できるが、ブラインド比較を多用するとむしろ増える。新料金で余裕がない人にはストレス源になる可能性
  • ブラインド比較の結果を「ユーザー主観」だけに頼っている。 客観的な指標(コンパイル成功率、テスト通過率、行数)を組み合わせた採点モードがあれば、もっと使いやすくなりそう

それでも、IDE業界に与える影響は大きい

Arena Modeの「結果から逆算してモデルを選ぶ」発想は、いずれ他のIDEにも逆輸入されると思う。これがUIとして当たり前になれば、エンドユーザー側で特定モデルへのロックインが弱まる。Anthropic、OpenAI、Googleにとっては「自分たちのモデルが選ばれ続ける必然性」がなくなる、ということでもある。

中長期的には、IDEがモデル選びの「中立な裁定者」になるシナリオが見えてくる。Windsurfはその役割を取りに行っているとも読める。

公式のWindsurf ChangelogにWave 13のリリースノートがまとまっている。Wave 13は無料プランでも使えるが、Arena Modeを試すならクオータに余裕のあるPro以上が現実的だ。

関連記事