FlowTune Media

Cursor Composer 2.5 — Opus 4.7と同じスコアを、10分の1の値段で出すモデルが来た

Composer 2が出たのは、わずか2ヶ月前のことだ。

あのときの記事で筆者は「Kimi K2.5ベースという選択がどこまで伸びるか」を気にしていた。同じ土台から2ヶ月でどこまで引き上げられるのか。答えが出た。SWE-bench Multilingualで73.7%から**79.8%へ、CursorBenchで61.3から63.2%**へ。Claude Opus 4.7やGPT-5.5と同等のスコアを、トークン単価10分の1で出している。

何が変わったのか

Composer 2.5は、Cursorが5月18日にリリースした自社コーディングモデルの最新版だ。ベースモデルは前作と同じMoonshot AIのKimi K2.5。変わったのはその上に重ねた訓練の質と量だ。

合成タスクの訓練を25倍に拡大した。Composer 2では限られたパターンのコーディングタスクでRLを回していたが、2.5ではより複雑で多様な環境を生成し、モデルがカバーする「経験値」を大幅に広げた。

もう一つ、Cursorが「targeted textual feedback」と呼ぶ新手法がある。モデルがタスク中に判断を誤ったその瞬間にテキストでフィードバックを与え、軌道修正を学ばせる。通常のRLは結果だけを見てスコアをつけるが、この手法はプロセスの途中に介入する。コードレビューで「この行の判断がまずい」と指摘するのに近い。

結果、Composer 2.5はComposer 2から以下のように改善された。

ベンチマーク Composer 2 Composer 2.5 差分
SWE-bench Multilingual 73.7% 79.8% +6.1
Terminal-Bench 2.0 61.7
CursorBench v3.1 61.3 63.2% +1.9

SWE-bench Multilingualの+6.1ポイントは、前回のComposer 1.5→2の+7.8ポイントには及ばないが、すでに70%台に入ってからの伸びとしては大きい。高水準からの改善は指数関数的に難しくなるからだ。

料金が安すぎないか

Composer 2.5には2つのバリエーションがある。

モデル 入力(/1Mトークン) 出力(/1Mトークン)
Composer 2.5(通常) $0.50 $2.50
Composer 2.5(高速) $3.00 $15.00

通常版は高速版より遅いが、Opus 4.7の10分の1以下の価格で同等のベンチマークスコアを出す。高速版でもSonnet 4.6と同水準の料金だ。

Cursorのサブスクリプションユーザーは、月額に含まれるモデル利用枠でComposer 2.5を使える。Proプラン($20/月)ユーザーにとっては、Opus 4.7を使うよりComposer 2.5を選ぶ方が圧倒的に使用回数を稼げる計算になる。初週は使用枠が2倍になるキャンペーンも実施中だ。

SpaceXAIとの共同訓練

Cursorの公式ブログには、あまり目立たない形で興味深い一文が入っている。SpaceXAIと共同で、Kimi K2.5よりも大幅に大きなモデルをゼロからトレーニング中であり、投入する計算量は10倍だという。

これは、Composer 2.5がComposerシリーズの最終形ではないことを示している。Kimi K2.5のファインチューニングで到達できる天井に近づきつつあるなら、次の世代ではベースモデル自体を自前で作る。Cursorがモデルプロバイダーとしても本気で振る舞い始める、という宣言だ。

正直に気になる点

ベンチマーク上の数字は印象的だが、実際のコーディング体験としてどうかは別の話だ。

筆者が既存のレビュー記事を読む限り、Composer 2.5はLPの生成、構造化データの抽出、レポート作成のような構造が明確なタスクで強い。一方、SVGアニメーション、物理シミュレーション、ゲーム寄りのインタラクティブなコードでは、ベースモデルのKimi K2.6(Moonshotの次世代モデル)の方が強いという報告もある。

つまり「何にでもOpus 4.7の代わりになる」わけではない。Opus 4.7はコーディングだけでなく、文章の推論、長文の分析、マルチステップの計画立案でも高い能力を持つ。Composer 2.5はあくまでコーディング特化だ。ベンチマークの数字だけを見て「Opusいらないじゃん」と判断するのは早計だろう。

もうひとつ。ベースモデルがKimi K2.5のままであるということは、中国発モデルへの依存が続いているということだ。Composer 2のリリース時に議論された地政学的リスク——米中関係の変化でモデルへのアクセスが制限されるシナリオ——は未解決のままだ。SpaceXAIとの自前モデル開発は、この懸念への回答でもあるのだろう。

これからのAIコーディング

Composer 2.5の登場で、AIコーディングツールの価格構造に面白い力学が生まれている。

フロンティアモデル(Opus 4.7、GPT-5.5)は性能が高いが高い。特化型モデル(Composer 2.5、DevinのSWE-1.6)はコーディングに限ればフロンティアに並ぶが安い。ユーザーは「汎用的な賢さ」にプレミアムを払い続けるか、タスクごとに最適なモデルを使い分けるか、という選択を迫られる。

Cursorが次世代の自前モデルを完成させたとき、AnthropicやOpenAIとの関係がどう変わるかも注目だ。今はCursorの中でOpus 4.7もGPT-5.5も選べるマルチモデル環境が売りだが、自社モデルが十分な性能に達すれば、他社モデルの優先度は下がるかもしれない。

IDE企業がモデル企業になる。その第一歩としてのComposer 2.5は、想像以上に速く、想像以上に安い。

関連記事