GPT-5.4を超えた初のオープンモデル — Kimi K2.6が静かに塗り替えたもの
オープンウェイトのモデルがクローズドのフラッグシップを超える日が、ついに来た。
Moonshot AIが4月20日に公開したKimi K2.6は、SWE-Bench Proで58.6%を記録した。これはGPT-5.4の数値を上回り、オープンウェイトモデルとして初めてクローズドのフロンティアモデルをコーディングベンチマークで打ち負かした結果になる。

しかもこのモデル、API料金は入力$0.60/出力$2.50(100万トークンあたり)。Ollamaでローカル実行もできる。Modified MITライセンスで商用利用も可能だ。
1兆パラメータの中身
Kimi K2.6はMixture-of-Experts(MoE)アーキテクチャを採用しており、総パラメータ数は1兆。ただし1トークンあたりのアクティブパラメータは32Bに抑えられている。つまり、巨大なモデルの知識量を持ちつつ、推論コストは32Bクラスで済む。
技術的なポイントを並べておく。
- レイヤーあたり384エキスパート(ルーティング8 + 共有1)
- Multi-head Latent Attention(KVキャッシュを圧縮して長コンテキストに対応)
- ネイティブINT4量子化対応
- コンテキストウィンドウ: 262Kトークン
262Kトークンは中規模のコードベース全体を一度に読み込める量だ。Claude Opus 4.7の200Kやgpt-5.5の200Kを上回る。
コーディング以外にも刺さるベンチマーク
SWE-Bench Proの58.6%が目を引くが、K2.6が強いのはコーディングだけではない。
| ベンチマーク | Kimi K2.6 | 備考 |
|---|---|---|
| SWE-Bench Pro | 58.6% | オープンウェイト首位 |
| V*(Visual Agents) | 96.9% | ビジュアルエージェントタスク |
| DeepSearchQA(F1) | 92.5% | 検索統合型質問応答 |
| Humanity's Last Exam | 54 | 汎用知識ベンチマーク |
特にVisual Agents(V*)の96.9%は異常に高い。UIのスクリーンショットを渡してコードを生成する、Figmaデザインからフロントエンドを起こす、といったタスクでの精度を示している。コーディングとデザインの両方を1つのモデルで回せるのは、Kimi K2.6の明確な強みだ。
300エージェントの並列実行
K2.6の最もユニークな特徴は、エージェントスウォームアーキテクチャだ。最大300のサブエージェントを並列で実行し、4,000ステップを協調して処理できる。
たとえば「このリポジトリのドキュメントサイトを作って」という指示を出すと、K2.6はタスクをドメイン別に分解し、フロントエンド・バックエンド・テスト・ドキュメントそれぞれに専門化したサブエージェントを同時に動かす。最終的にはドキュメントからWebサイト、スプレッドシートまで、一回の自律実行で生成される。
この仕組みがどこまで実用的かはまだ未知数だが、少なくとも「エージェント同士が連携して複雑なタスクを完遂する」方向性において、K2.6は現時点で最も野心的なモデルと言える。
どこで使えるか
K2.6のアクセス経路は豊富だ。
API: Moonshot公式からOpenAI/Anthropic互換APIが利用可能。入力$0.60/出力$2.50(100万トークンあたり)。日本円で入力約90円/出力約375円。同クラスのモデルと比べてかなり安い。
ローカル実行: Ollamaに対応しているので、手元のマシンで動かせる。ただし1Tパラメータの量子化モデルでもVRAMは相当食う。最低でもRTX 4090(24GB VRAM)クラスは欲しい。
クラウドプロバイダー: Cloudflare Workers AI、Microsoft Foundry、OpenRouter、DeepInfra経由でも使える。プロバイダーによって料金が異なるので、OpenRouterで比較するのが手っ取り早い。
中国発オープンモデルの現在地
K2.6の公開は、2026年4月末の「中国LLMラッシュ」の一部だ。同時期にDeepSeek V4/V4PLUS、Qwen 3.6、MiniMax M2.7、GLM-5.1が矢継ぎ早にリリースされている。
筆者がこの状況を見て思うのは、オープンモデルの競争軸が「サイズ」から「実用性」に移ったということだ。K2.6はパラメータ数こそ1兆だが、アクティブ32Bという設計により推論コストを現実的な範囲に収めている。DeepSeek V4 Flashも284Bの総パラメータに対してアクティブ13Bだ。「巨大だけど安く速い」を両立するMoE設計が、もはやデファクトになっている。
この流れの恩恵を最も受けるのは、クローズドモデルのAPI料金を気にしていた開発者だろう。K2.6のAPI料金(入力$0.60)はGPT-5.5やClaude Opus 4.7の数分の一で、コーディング性能ではGPT-5.4を超えている。特にスタートアップのプロトタイピングや、大量のコード生成タスクには経済的な選択肢になる。
気になる点
率直に言って、2つ引っかかる。
1. エージェントスウォームの信頼性。300エージェント×4,000ステップの自律実行は派手だが、途中でエラーが積み重なったときのリカバリーが見えない。ベンチマークは成功ケースを測るが、実務では「99%動くが1%で壊滅する」ツールは使いにくい。
2. Moonshot AIの持続性。中国のAIスタートアップは資金調達環境の変動が激しい。K2.6は素晴らしいモデルだが、Moonshot AIが来年も同じペースで開発を続けている保証はない。ビジネスクリティカルな用途では、この点をリスクとして織り込む必要がある。
Kimi K2.6で何ができるようになるか
制約を踏まえた上で、K2.6が開く可能性は大きい。
フルスタック開発の自動化。コーディング+デザイン+テストをすべて1モデルで回せるなら、プロトタイプの構築スピードは劇的に上がる。特にVisual Agentsのスコアが示す「デザインからコード」の変換精度は、Lovableやv0のようなAIアプリビルダーが内部モデルとしてK2.6を採用してもおかしくないレベルだ。
ローカルファーストのAI開発環境。OllamaでK2.6を動かし、Claude CodeやCursorのバックエンドとして接続する使い方が現実的になる。クラウドにコードを送らずに済むので、セキュリティ要件の厳しいプロジェクトでもAIコーディングが使える。
オープンウェイトでこの性能が手に入る時代になったことは、素直に歓迎したい。
Kimi K2.6 — 公式モデルページ / Hugging Face / Ollama
関連記事
Claude Codeの6分の1の価格で動くコーディングAI — Kimi K2.6 Codeが意味すること
Moonshot AIのKimi K2.6 Code PreviewはClaude Codeの6分の1の料金でエージェント型コーディングを提供する。K2.5からの改善点、ベンチマーク、使い方を整理する。
DeepSeek V4が「GPT-5.5の97%引き」で殴り込んできた — ProとFlashの使い分けガイド
DeepSeek V4はPro/Flashの2構成。GPT-5.5比97%安でコーディング互角。料金と使い分けを解説。
AIが昨日の会話を覚えている — Qwen Codeのセッション横断メモリが地味にすごい
Qwen Code v0.15.0のセッション横断メモリ機能を解説。過去の会話から技術スタックやコーディング規約を自動記憶し、次のセッションに引き継ぐ仕組みと、Claude Codeとの違いを整理する。