Cursor Composer 2.5 — Opus 4.7と同じスコアを、10分の1の値段で出すモデルが来た
Composer 2が出たのは、わずか2ヶ月前のことだ。
あのときの記事で筆者は「Kimi K2.5ベースという選択がどこまで伸びるか」を気にしていた。同じ土台から2ヶ月でどこまで引き上げられるのか。答えが出た。SWE-bench Multilingualで73.7%から**79.8%へ、CursorBenchで61.3から63.2%**へ。Claude Opus 4.7やGPT-5.5と同等のスコアを、トークン単価10分の1で出している。
何が変わったのか
Composer 2.5は、Cursorが5月18日にリリースした自社コーディングモデルの最新版だ。ベースモデルは前作と同じMoonshot AIのKimi K2.5。変わったのはその上に重ねた訓練の質と量だ。
合成タスクの訓練を25倍に拡大した。Composer 2では限られたパターンのコーディングタスクでRLを回していたが、2.5ではより複雑で多様な環境を生成し、モデルがカバーする「経験値」を大幅に広げた。
もう一つ、Cursorが「targeted textual feedback」と呼ぶ新手法がある。モデルがタスク中に判断を誤ったその瞬間にテキストでフィードバックを与え、軌道修正を学ばせる。通常のRLは結果だけを見てスコアをつけるが、この手法はプロセスの途中に介入する。コードレビューで「この行の判断がまずい」と指摘するのに近い。
結果、Composer 2.5はComposer 2から以下のように改善された。
| ベンチマーク | Composer 2 | Composer 2.5 | 差分 |
|---|---|---|---|
| SWE-bench Multilingual | 73.7% | 79.8% | +6.1 |
| Terminal-Bench 2.0 | 61.7 | — | — |
| CursorBench v3.1 | 61.3 | 63.2% | +1.9 |
SWE-bench Multilingualの+6.1ポイントは、前回のComposer 1.5→2の+7.8ポイントには及ばないが、すでに70%台に入ってからの伸びとしては大きい。高水準からの改善は指数関数的に難しくなるからだ。
料金が安すぎないか
Composer 2.5には2つのバリエーションがある。
| モデル | 入力(/1Mトークン) | 出力(/1Mトークン) |
|---|---|---|
| Composer 2.5(通常) | $0.50 | $2.50 |
| Composer 2.5(高速) | $3.00 | $15.00 |
通常版は高速版より遅いが、Opus 4.7の10分の1以下の価格で同等のベンチマークスコアを出す。高速版でもSonnet 4.6と同水準の料金だ。
Cursorのサブスクリプションユーザーは、月額に含まれるモデル利用枠でComposer 2.5を使える。Proプラン($20/月)ユーザーにとっては、Opus 4.7を使うよりComposer 2.5を選ぶ方が圧倒的に使用回数を稼げる計算になる。初週は使用枠が2倍になるキャンペーンも実施中だ。
SpaceXAIとの共同訓練
Cursorの公式ブログには、あまり目立たない形で興味深い一文が入っている。SpaceXAIと共同で、Kimi K2.5よりも大幅に大きなモデルをゼロからトレーニング中であり、投入する計算量は10倍だという。
これは、Composer 2.5がComposerシリーズの最終形ではないことを示している。Kimi K2.5のファインチューニングで到達できる天井に近づきつつあるなら、次の世代ではベースモデル自体を自前で作る。Cursorがモデルプロバイダーとしても本気で振る舞い始める、という宣言だ。
正直に気になる点
ベンチマーク上の数字は印象的だが、実際のコーディング体験としてどうかは別の話だ。
筆者が既存のレビュー記事を読む限り、Composer 2.5はLPの生成、構造化データの抽出、レポート作成のような構造が明確なタスクで強い。一方、SVGアニメーション、物理シミュレーション、ゲーム寄りのインタラクティブなコードでは、ベースモデルのKimi K2.6(Moonshotの次世代モデル)の方が強いという報告もある。
つまり「何にでもOpus 4.7の代わりになる」わけではない。Opus 4.7はコーディングだけでなく、文章の推論、長文の分析、マルチステップの計画立案でも高い能力を持つ。Composer 2.5はあくまでコーディング特化だ。ベンチマークの数字だけを見て「Opusいらないじゃん」と判断するのは早計だろう。
もうひとつ。ベースモデルがKimi K2.5のままであるということは、中国発モデルへの依存が続いているということだ。Composer 2のリリース時に議論された地政学的リスク——米中関係の変化でモデルへのアクセスが制限されるシナリオ——は未解決のままだ。SpaceXAIとの自前モデル開発は、この懸念への回答でもあるのだろう。
これからのAIコーディング
Composer 2.5の登場で、AIコーディングツールの価格構造に面白い力学が生まれている。
フロンティアモデル(Opus 4.7、GPT-5.5)は性能が高いが高い。特化型モデル(Composer 2.5、DevinのSWE-1.6)はコーディングに限ればフロンティアに並ぶが安い。ユーザーは「汎用的な賢さ」にプレミアムを払い続けるか、タスクごとに最適なモデルを使い分けるか、という選択を迫られる。
Cursorが次世代の自前モデルを完成させたとき、AnthropicやOpenAIとの関係がどう変わるかも注目だ。今はCursorの中でOpus 4.7もGPT-5.5も選べるマルチモデル環境が売りだが、自社モデルが十分な性能に達すれば、他社モデルの優先度は下がるかもしれない。
IDE企業がモデル企業になる。その第一歩としてのComposer 2.5は、想像以上に速く、想像以上に安い。
関連記事
Cursor Composer 2の正体 — 中国発Kimi K2.5ベース、価格90%減、そして残された問い
Cursor Composer 2はMoonshot AIのKimi K2.5を土台に独自RLで鍛えた自社コーディングモデル。SWE-benchや価格をOpus 4.6/GPT-5.4と比較し、その実力と論争を解説する。
Cursorの「寝ている間に仕事が終わる」が冗談じゃなくなってきた — Automations、Agents Windowに統合
Cursor 3.5でAutomationsがAgents Windowに統合。マルチリポ対応・ノーリポ自動化・5つのMarketplaceテンプレートの中身と使い所を整理する。
35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理