GPT-5.4を超えた初のオープンモデル — Kimi K2.6が静かに塗り替えたもの

オープンウェイトのモデルがクローズドのフラッグシップを超える日が、ついに来た。

Moonshot AIが4月20日に公開したKimi K2.6は、SWE-Bench Proで58.6%を記録した。これはGPT-5.4の数値を上回り、オープンウェイトモデルとして初めてクローズドのフロンティアモデルをコーディングベンチマークで打ち負かした結果になる。

Kimi K2.6

しかもこのモデル、API料金は入力$0.60/出力$2.50（100万トークンあたり）。Ollamaでローカル実行もできる。Modified MITライセンスで商用利用も可能だ。

1兆パラメータの中身

Kimi K2.6はMixture-of-Experts（MoE）アーキテクチャを採用しており、総パラメータ数は1兆。ただし1トークンあたりのアクティブパラメータは32Bに抑えられている。つまり、巨大なモデルの知識量を持ちつつ、推論コストは32Bクラスで済む。

技術的なポイントを並べておく。

レイヤーあたり384エキスパート（ルーティング8 + 共有1）
Multi-head Latent Attention（KVキャッシュを圧縮して長コンテキストに対応）
ネイティブINT4量子化対応
コンテキストウィンドウ: 262Kトークン

262Kトークンは中規模のコードベース全体を一度に読み込める量だ。Claude Opus 4.7の200Kやgpt-5.5の200Kを上回る。

コーディング以外にも刺さるベンチマーク

SWE-Bench Proの58.6%が目を引くが、K2.6が強いのはコーディングだけではない。

ベンチマーク	Kimi K2.6	備考
SWE-Bench Pro	58.6%	オープンウェイト首位
V*（Visual Agents）	96.9%	ビジュアルエージェントタスク
DeepSearchQA（F1）	92.5%	検索統合型質問応答
Humanity's Last Exam	54	汎用知識ベンチマーク

特にVisual Agents（V*）の96.9%は異常に高い。UIのスクリーンショットを渡してコードを生成する、Figmaデザインからフロントエンドを起こす、といったタスクでの精度を示している。コーディングとデザインの両方を1つのモデルで回せるのは、Kimi K2.6の明確な強みだ。

300エージェントの並列実行

K2.6の最もユニークな特徴は、エージェントスウォームアーキテクチャだ。最大300のサブエージェントを並列で実行し、4,000ステップを協調して処理できる。

たとえば「このリポジトリのドキュメントサイトを作って」という指示を出すと、K2.6はタスクをドメイン別に分解し、フロントエンド・バックエンド・テスト・ドキュメントそれぞれに専門化したサブエージェントを同時に動かす。最終的にはドキュメントからWebサイト、スプレッドシートまで、一回の自律実行で生成される。

この仕組みがどこまで実用的かはまだ未知数だが、少なくとも「エージェント同士が連携して複雑なタスクを完遂する」方向性において、K2.6は現時点で最も野心的なモデルと言える。

どこで使えるか

K2.6のアクセス経路は豊富だ。

API: Moonshot公式からOpenAI/Anthropic互換APIが利用可能。入力$0.60/出力$2.50（100万トークンあたり）。日本円で入力約90円/出力約375円。同クラスのモデルと比べてかなり安い。

ローカル実行: Ollamaに対応しているので、手元のマシンで動かせる。ただし1Tパラメータの量子化モデルでもVRAMは相当食う。最低でもRTX 4090（24GB VRAM）クラスは欲しい。

クラウドプロバイダー: Cloudflare Workers AI、Microsoft Foundry、OpenRouter、DeepInfra経由でも使える。プロバイダーによって料金が異なるので、OpenRouterで比較するのが手っ取り早い。

中国発オープンモデルの現在地

K2.6の公開は、2026年4月末の「中国LLMラッシュ」の一部だ。同時期にDeepSeek V4/V4PLUS、Qwen 3.6、MiniMax M2.7、GLM-5.1が矢継ぎ早にリリースされている。

筆者がこの状況を見て思うのは、オープンモデルの競争軸が「サイズ」から「実用性」に移ったということだ。K2.6はパラメータ数こそ1兆だが、アクティブ32Bという設計により推論コストを現実的な範囲に収めている。DeepSeek V4 Flashも284Bの総パラメータに対してアクティブ13Bだ。「巨大だけど安く速い」を両立するMoE設計が、もはやデファクトになっている。

この流れの恩恵を最も受けるのは、クローズドモデルのAPI料金を気にしていた開発者だろう。K2.6のAPI料金（入力$0.60）はGPT-5.5やClaude Opus 4.7の数分の一で、コーディング性能ではGPT-5.4を超えている。特にスタートアップのプロトタイピングや、大量のコード生成タスクには経済的な選択肢になる。

気になる点

率直に言って、2つ引っかかる。

1. エージェントスウォームの信頼性。300エージェント×4,000ステップの自律実行は派手だが、途中でエラーが積み重なったときのリカバリーが見えない。ベンチマークは成功ケースを測るが、実務では「99%動くが1%で壊滅する」ツールは使いにくい。

2. Moonshot AIの持続性。中国のAIスタートアップは資金調達環境の変動が激しい。K2.6は素晴らしいモデルだが、Moonshot AIが来年も同じペースで開発を続けている保証はない。ビジネスクリティカルな用途では、この点をリスクとして織り込む必要がある。

Kimi K2.6で何ができるようになるか

制約を踏まえた上で、K2.6が開く可能性は大きい。

フルスタック開発の自動化。コーディング+デザイン+テストをすべて1モデルで回せるなら、プロトタイプの構築スピードは劇的に上がる。特にVisual Agentsのスコアが示す「デザインからコード」の変換精度は、Lovableやv0のようなAIアプリビルダーが内部モデルとしてK2.6を採用してもおかしくないレベルだ。

ローカルファーストのAI開発環境。OllamaでK2.6を動かし、Claude CodeやCursorのバックエンドとして接続する使い方が現実的になる。クラウドにコードを送らずに済むので、セキュリティ要件の厳しいプロジェクトでもAIコーディングが使える。

オープンウェイトでこの性能が手に入る時代になったことは、素直に歓迎したい。

Kimi K2.6 — 公式モデルページ / Hugging Face / Ollama

GPT-5.4を超えた初のオープンモデル — Kimi K2.6が静かに塗り替えたもの

1兆パラメータの中身

コーディング以外にも刺さるベンチマーク

300エージェントの並列実行

どこで使えるか

中国発オープンモデルの現在地

気になる点

Kimi K2.6で何ができるようになるか

関連記事

Claude Codeの6分の1の価格で動くコーディングAI — Kimi K2.6 Codeが意味すること

DeepSeek V4が「GPT-5.5の97%引き」で殴り込んできた — ProとFlashの使い分けガイド

AIが昨日の会話を覚えている — Qwen Codeのセッション横断メモリが地味にすごい