12日間で4社が出揃った — 中国AIコーディングモデル比較、どれを使うのが正解か

2026年4月から5月にかけて、中国のAIラボ4社がほぼ同時期にオープンウェイトのコーディングモデルを投入した。

GLM-5.1（Z.ai / 智譜AI）、Kimi K2.6（Moonshot AI）、DeepSeek V4（DeepSeek）、MiniMax M2.7（MiniMax）。Air Street Pressは「State of AI: May 2026」レポートでこれを「12-day window」と呼んだ。4社がほぼ同じタイミングで、ほぼ同じ性能帯のモデルを、Claude Opus 4.7の3分の1以下の価格で出してきたことになる。

個別のモデルについてはすでに記事を出している（GLM-5.1、Kimi K2.6、DeepSeek V4、MiniMax M2.7）。この記事では4社を横に並べて、どのモデルをどう使い分けるかを整理する。

スペック比較表

	GLM-5.1	Kimi K2.6	DeepSeek V4	MiniMax M2.7
開発元	Z.ai（智譜AI）	Moonshot AI	DeepSeek	MiniMax
総パラメータ	754B	1T（MoE）	1.6T（MoE）	非公開（MoE）
アクティブパラメータ	754B（Dense）	32B	非公開	10B
コンテキスト長	200K	256K	1M	205K
最大出力トークン	128K	262K	非公開	非公開
SWE-Bench Pro	58.4%	58.6%	—	56.2%
SWE-Bench Verified	—	—	80.6%	78.0%
入力料金（/1M tokens）	$1.05	$0.60	$0.14（Flash） / $1.74（Pro）	$0.28
出力料金（/1M tokens）	$3.50	$2.50	$0.28（Flash） / $6.96（Pro）	$1.20
ライセンス	オープンウェイト	オープンウェイト（HF）	Apache 2.0	オープンウェイト
リリース日	2026/4/7	2026/4/20	2026/4/24	2026/3/18

注意点がいくつかある。SWE-Bench ProとSWE-Bench Verifiedは別のベンチマークなので、GLM-5.1の58.4%とDeepSeek V4 Proの80.6%を単純比較はできない。DeepSeek V4にはProとFlashの2モデルがあり、料金が10倍以上違う。MiniMax M2.7は10Bアクティブパラメータで他の3社と同等の性能を叩き出しており、効率という点では頭一つ抜けている。

各モデルの特徴

GLM-5.1 — 8時間の自律実行

Z.ai（旧・智譜AI）のGLM-5.1は、4社の中で唯一のDenseモデルだ。754Bパラメータを丸ごと動かすため推論コストは最も高いが、そのぶん8時間の連続自律コーディングが可能という独自の強みがある。タスクを投げたら放置して翌朝結果を回収する、というワークフローに向く。

SWE-Bench Proで58.4%はGPT-5.4（57.7%）やClaude Opus 4.6（53.4%）を上回った数字。ただし入力$1.05/出力$3.50という料金はClaude Opus 4.7（入力$15/出力$75）よりは安いものの、4社の中では最も高い。

Kimi K2.6 — 300並列のAgent Swarm

Moonshot AIのKimi K2.6は1兆パラメータのMoEモデルで、アクティブパラメータは32B。最大の特徴はAgent Swarmと呼ばれる並列実行機能だ。最大300のサブエージェントを同時に起動し、4,000ステップの協調実行を1回のセッションでこなせる。大規模リファクタリングやモノレポ全体のマイグレーションなど、「数のタスク」に圧倒的に強い。

テキスト・画像・動画のマルチモーダル入力にも対応しており、UIのスクリーンショットを渡してフロントエンドを生成させるような使い方もできる。入力$0.60/出力$2.50は4社の中でバランスが良い。

DeepSeek V4 — 価格破壊と1Mコンテキスト

DeepSeek V4には2つの顔がある。Flash（入力$0.14/出力$0.28）とPro（入力$1.74/出力$6.96）。Flashの料金は4社の中で圧倒的に安く、Claude Opus 4.7の入力料金の100分の1以下だ。Proモデルのほうも5月末まで75%割引が適用されており、割引後はFlashに近い価格帯で本番品質のコーディングが使える。

1Mトークンのコンテキスト長も他を大きく引き離している。巨大なコードベースをまるごとコンテキストに入れて作業させるならDeepSeek V4一択と言っていい。SWE-Bench Verifiedで80.6%はフロンティアモデルに匹敵する数字。Apache 2.0ライセンスなので商用利用のハードルも低い。

ただし、中国のサーバーから提供されるため、レイテンシが気になる場面はある。OpenRouterなど海外プロキシ経由でも利用できるが、直接APIと比べると応答速度に差が出る。

MiniMax M2.7 — 10Bで殴る効率モンスター

MiniMax M2.7のアクティブパラメータは10B。4社の中で最も少ない。にもかかわらずSWE-Bench Proで56.2%、SWE-Bench Verifiedで78.0%を記録し、パラメータ効率では群を抜いている。

「自己進化」がMiniMaxのセールスポイントだ。M2.7は自身の訓練プロセスに参加し、100回以上の最適化サイクルを自律的に回して内部ベンチマークを30%改善したとされる。マーケティング的な誇張を差し引いても、10Bアクティブでこの性能は素直にすごい。

入力$0.28/出力$1.20。キャッシュヒット時は入力$0.06まで下がる。コストと性能のバランスでは4社中トップだろう。

用途別の選び方

正直なところ、「どれが一番」という答えはない。用途で選ぶのが合理的だ。

巨大コードベースの一括処理 → DeepSeek V4。1Mコンテキストは他にない。Flash料金なら試行錯誤のコストも低い。

長時間の自律タスク → GLM-5.1。8時間放置して結果を待つスタイルなら現状で唯一の選択肢。ただし料金は4社で最も高い。

大規模並列マイグレーション → Kimi K2.6。300並列のAgent Swarmは、モノレポの依存関係アップデートやAPI移行のような「同じ作業を大量に回す」シナリオで真価を発揮する。

コスト最優先 → DeepSeek V4 Flash。入力$0.14は検証用・プロトタイプ用として圧倒的。ただし本番品質が必要なら同じDeepSeekのPro、またはMiniMax M2.7のほうがいい。

バランス重視 → MiniMax M2.7。性能、コスト、応答速度のバランスが最も良い。アクティブパラメータが10Bと軽いためスループットも高い。

気になる点

4社に共通する懸念もある。

まず、ベンチマークの信頼性。SWE-Bench Pro/Verified以外の実タスクでの性能は、各社の公表値だけでは判断しにくい。自分のコードベースで実際に使ってみるまで、性能を鵜呑みにしないほうがいい。

次に、データの取り扱い。中国企業のAPIを使う場合、入力データがどこに保存されるか、学習に使われるかは確認が必要だ。DeepSeekはApache 2.0でウェイトを公開しているので、機密性が気になるならセルフホストという選択肢がある。GLM-5.1やKimi K2.6もHugging Faceでウェイトを公開しているため同様だ。

最後に、エコシステムの成熟度。Claude CodeやCursorのようにエディタと深く統合されたツールチェーンは、中国勢にはまだない。APIを叩いて自前のワークフローに組み込む前提になるため、ある程度の技術力は要求される。

西側フロンティアモデルとの比較

Claude Opus 4.7の入力$15/出力$75、GPT-5.5の入力$10/出力$40と比べると、中国勢のコストは桁が違う。最も安いDeepSeek V4 Flashは入力$0.14で、Claude Opus 4.7の107分の1だ。

性能面でも差は縮まっている。SWE-Bench VerifiedでDeepSeek V4 Proの80.6%はClaude Opus 4.7に匹敵し、SWE-Bench ProではGLM-5.1とKimi K2.6がGPT-5.4を上回った。「安いけど性能は劣る」という時代は終わりつつある。

もちろん、ベンチマーク以外の部分——ツールチェーンの充実度、日本語対応、レスポンス品質の安定性——ではまだ差がある。だが、APIベースで英語コードを書かせるだけなら、コスト差を無視する理由はもうない。

この先に見えるもの

12日間で4社が出揃ったということは、中国のAIラボ同士が互いを意識しながら開発を加速させているということだ。DeepSeekが動けばMoonshotが追い、Z.aiが仕掛ければMiniMaxが応じる。この競争圧力がある限り、価格は下がり続け、性能は上がり続ける。

開発者にとっての実際的な意味は明快だ。Claude CodeやCursorをメインで使いつつ、コストが効くタスクには中国勢のAPIを組み合わせる——そういうハイブリッド運用が、2026年後半の標準になるだろう。4社のどれを選ぶかは、自分のタスクの性質とコスト感覚で決めればいい。