FlowTune Media

Cursor Composer 2の正体 — 中国発Kimi K2.5ベース、価格90%減、そして残された問い

Cursorが独自のコーディングモデルを持っている。その事実自体は、もう驚きではないだろう。

驚くべきは、その土台が中国のAIスタートアップMoonshot AIの「Kimi K2.5」だったことだ。2026年3月19日にリリースされたComposer 2は、SWE-bench Multilingual 73.7%、Terminal-Bench 2.0で61.7という数字を叩き出しながら、価格はClaude Opus 4.6の約10分の1。リリース直後、TechCrunchの取材で「Kimi K2.5ベースである」と認めたことで、技術的な称賛と地政学的な議論が同時に巻き起こった。

何が変わったのか

Composer 2は、Cursorが自社で開発・提供するコーディング専用モデルだ。前世代のComposer 1.5から1か月足らずで、主要ベンチマークを大幅に更新した。

数字で見ると、その跳躍の大きさがわかる。

  • SWE-bench Multilingual: 65.9 → 73.7(Python、TypeScript、Java、Go、Rustの5言語横断)
  • Terminal-Bench 2.0: 47.8 → 61.7
  • CursorBench: 44.3 → 61.3

CursorBenchで17ポイント、Terminal-Benchで約14ポイントの改善。Cursorがこれまでに出荷した中で、最大の世代間ジャンプだという。

コンテキストウィンドウは200Kトークン。大規模リポジトリの全体像を把握しながらマルチファイル編集をこなすには、この長さがじわじわと効いてくる。

Opus 4.6を超え、GPT-5.4には届かない

ベンチマークの位置関係を整理しておく。

モデル Terminal-Bench 2.0 SWE-bench ML 入力単価(/Mトークン)
GPT-5.4 75.1 $2.50
Composer 2 61.7 73.7 $0.50
Claude Opus 4.6 58.0 $5.00

Composer 2はClaude Opus 4.6をTerminal-Bench 2.0で3.7ポイント上回る。一方でGPT-5.4にはまだ13ポイント以上の差がある。ただし入力トークン単価はGPT-5.4の5分の1、Opus 4.6の10分の1だ。

正直なところ、この価格差はベンチマークの差を補って余りある。毎日数百回のモデル呼び出しが発生するエージェンティックな開発ワークフローでは、トークン単価の差がそのまま月額コストに反映される。Opus 4.6で月$500かかっていた処理が、Composer 2なら$50前後で済む計算だ。

高速版($1.50/$7.50 per Mトークン)も用意されている。速度重視の対話的コーディングはこちら、バッチ処理やバックグラウンドエージェントには標準版、という使い分けが現実的だろう。

Kimi K2.5という土台

ここからが、このモデルの話で避けて通れない部分だ。

Composer 2の土台は、Moonshot AIが開発したオープンモデル「Kimi K2.5」。1兆パラメータ、32Bアクティブの混合エキスパート(MoE)アーキテクチャで、Fireworks AI経由で商用ライセンスのもと利用している。

Cursorの説明によれば、最終モデルの計算量のうちベースモデル由来は約25%に過ぎず、残り75%はCursor独自の継続事前学習と大規模強化学習(RL)によるものだという。コード特化のデータミックスで事前学習を重ね、その上にプロダクション環境からのリアルタイムRLを適用。長いコーディングセッションを扱うための「自己要約」技術も導入している。

「75%は自社」という数字をどう受け取るかは、立場によって分かれる。

技術的には、ベースモデルの上にここまでの性能改善を積み上げた手腕は認めざるを得ない。1か月で主要ベンチマークを10ポイント以上引き上げるRL手法は、論文レベルの成果だ。

一方で、中国発のモデルをベースにしたことへの懸念は残る。米中間のAI規制が強化される流れの中で、エンタープライズ顧客がこの構成をどう評価するかは未知数だ。Cursor自身はモデルの推論をすべて自社インフラで実行しており、コードが中国に送信されることはないと明言しているが、調達リスクそのものは消えない。

実際の使用感

ベンチマークは良い。では実際のコーディングではどうか。

海外のレビューを総合すると、Composer 2は「定型的なタスクの高速処理」に強く、「曖昧な要件の解釈」に弱い。具体的には、マルチファイルのリファクタリング、テスト生成、定型的なCRUD実装では明確にOpus 4.6を上回る速度とコスト効率を発揮する。

逆に、複雑なシステム設計やアーキテクチャ上の判断が求められる場面では、Claude Opus 4.6のほうが「わからないことを聞いてくる」のに対し、Composer 2は「自分で解釈して突き進む」傾向がある。これは長所にも短所にもなる。

筆者の見立てでは、現実的な運用はハイブリッドだ。日常的なコーディングタスクの8割をComposer 2に任せ、設計判断や複雑なデバッグにはOpus 4.6やGPT-5.4に切り替える。Cursor 3のモデル切り替えUIはこの使い分けを想定した設計になっている。

AIコーディングツールが自社モデルを持つ意味

Composer 2が示したのは、AIコーディングツール企業が「モデル提供者に依存しない」道筋だ。

これまでCursorもWindsurfもReplit もAnthropicやOpenAIのモデルに依存していた。モデル提供者の値上げや方針変更に、ツール企業は常に振り回されてきた。Composer 2の成功は、オープンモデルをベースに自社RLで鍛え上げるという第三の道が成立することを証明した。

同様の動きはすでに起きている。WindsurfはSWE-1という独自モデルを発表済みだし、DevinもSWE-1.6を持つ。AIコーディング市場は「どのモデルを使うか」ではなく「どのRLパイプラインを持つか」の競争に移行しつつある。

この流れが進めば、ユーザーにとっては選択肢が増え、価格競争が激化する。Composer 2の$0.50/Mトークンという価格設定は、その先陣を切るものだ。

まとめ

Composer 2は、性能と価格のバランスで現時点のAIコーディングモデルの中でもっとも合理的な選択肢のひとつだ。Claude Opus 4.6を上回るベンチマーク、10分の1の価格、200Kのコンテキスト。Kimi K2.5ベースという出自に引っかかりがある人もいるだろうが、Cursorの自社RL比率75%という数字と、推論が自社インフラで完結する設計は、実用上のリスクをかなり抑えている。

Cursor Proユーザー(月額$20)なら追加料金なしで利用可能。API経由での利用はCursor公式サイトから確認できる。

関連記事