FlowTune Media

思考トークン30%減で性能は上 — Kimi K2.7 Code、中国勢コーディングモデルの世代交代が始まった

5月の「12日間で4社が出揃った」記事で、中国AIコーディングモデルの第一世代を比較した。あれから1か月。Moonshot AIがKimi K2.7 Codeをリリースし、早くも世代交代の号砲が鳴った。

6月12日に公開されたこのモデル、派手なバズこそないが、中身の進化は地味に大きい。思考トークンの消費量を30%削減しながら、コーディングベンチマークは軒並み向上している。「速くて安くて賢い」を同時に達成したモデルが、オープンソースで手に入る。

K2.6から何が変わったのか

数字を並べたほうが早い。

指標 K2.6 K2.7 Code 変化
Kimi Code Bench v2 ベースライン +21.8% 向上
Program Bench ベースライン +11.0% 向上
MLS Bench Lite ベースライン +31.5% 向上
MCPMark Verified 81.1% Opus 4.8の76.4%を超過
思考トークン使用量 100% 約70% 30%削減

正直、自社ベンチマークの数字だけで判断するのは危険だ。SWE-Bench ProやTerminal Bench 2の独立再現はまだ出ていない。ただ、MCPMarkでOpus 4.8を上回っている点は注目に値する。ツール呼び出しの正確さ、つまりエージェントとしての実用性が高いことを示しているからだ。

スペック

アーキテクチャはK2.6と同じMixture-of-Experts。総パラメータ1T、アクティブ32B、384エキスパート構成。コンテキスト長は256Kトークン。

重要なのは「コーディング特化」という位置づけだ。K2.7 Codeは汎用チャットモデルではなく、ソフトウェアエンジニアリングの長いタスク — マルチファイル編集、テスト生成、リファクタリング、デバッグ — に最適化されている。

ライセンスはModified MIT。商用利用可能で、HuggingFaceとOpenRouterの両方で即日利用できる。

料金

API経由の利用料金は以下のとおり。

プロバイダ 入力(/1Mトークン) 出力(/1Mトークン)
OpenRouter $0.95(約140円) $4.00(約590円)
Kimi API $0.95 $4.00

参考までに、Claude Opus 4.8は入力$15 / 出力$75。Kimi K2.7 Codeは入力で約16分の1、出力で約19分の1。MCPMarkのスコアがOpusを超えているなら、コスパの差は圧倒的だ。

もちろん、Opusと同等の汎用性能があるわけではない。あくまでコーディングタスクに限った話だ。だが「エージェント的に使うコーディングモデル」として見れば、この価格差は無視できない。

使い方

OpenRouter経由(推奨)

モデルID: moonshotai/kimi-k2.7-code

OpenRouter互換のエンドポイントを使えるため、Claude CodeやCline、Roo Codeなどのターミナルエージェントにそのまま接続できる。thinkingパラメータを渡す必要はない — モデルは常に推論内容を出力する設計だ。

Kimi Code(公式CLI)

Kimi CodeはMoonshot AI公式のターミナルコーディングエージェント。K2.7 Codeがデフォルトモデルとして組み込まれている。有料プランは月額$19から。

Claude CodeやCursorの代替というより、「安いモデルでエージェント的にコードを書かせたいときの選択肢」という立ち位置が正直なところだろう。

何が面白いのか

技術的に一番光るのは、思考トークンの削減だ。

LLMが「考える」とき、思考トークンを消費する。これはそのまま料金に跳ね返る。K2.7 Codeは同じ(またはそれ以上の)回答品質を、30%少ないトークンで出せるようになった。単に安くなるだけでなく、レスポンスも速くなる。

この効率化は、長時間走るエージェントワークフローで特に効く。100ファイルのリポジトリを横断してバグを修正するようなタスクでは、思考トークンの累積は馬鹿にならない。30%の削減は、そのまま30%のコスト減と速度向上を意味する。

もうひとつ。256Kのコンテキストウィンドウは、中規模のリポジトリ全体を一度に読み込めるサイズだ。K2.7 Codeはコンテキスト内の指示への追従性も改善されているとのことで、「大量のファイルを読ませても途中で指示を忘れない」問題の改善が期待できる。

正直な評価

良い点:

  • 思考トークン30%削減は実用上のインパクトが大きい
  • MCPMark 81.1%はツール呼び出し精度が高いことを示す
  • オープンソース(Modified MIT)で商用利用可能
  • OpenRouter経由で既存ツールにすぐ接続できる

気になる点:

  • 独立ベンチマーク(SWE-Bench Pro等)の結果がまだ出ていない
  • 自社ベンチマークのみでの性能主張は割り引いて見る必要がある
  • 汎用タスク(文章生成、翻訳等)の性能は未知数
  • Kimi Code CLIの安定性にはまだ課題があるとの声もある

中国AIコーディングモデルの現在地

4月〜5月の「12日間」で出揃った第一世代(GLM-5.1、K2.6、DeepSeek V4、MiniMax M2.7)から、わずか1か月でK2.7 CodeとMiniMax M3が登場した。このペースが続くなら、年末までにさらに1〜2世代の更新があってもおかしくない。

注目すべきは、各社が「汎用性能」ではなく「コーディング特化」に舵を切っている点だ。汎用モデルではOpenAIやAnthropicに追いつけなくても、コーディングという特定領域なら勝負できる。そしてコーディング領域は、OSSとして公開するメリットが最も大きい分野でもある — 開発者がそのまま製品に組み込んでくれるからだ。

K2.7 Codeが「ChatGPT killerか」と聞かれたらNOだ。だが「Opus 4.8の10分の1以下の料金で、エージェント的なコーディングタスクをこなせるか」と聞かれたら、試す価値は十分にある。

関連記事