GPT-5.5を超え、価格は10分の1 — MiniMax M3の実力と死角
SWE-Bench Proで59.0%。GPT-5.5の58.6%を上回り、Gemini 3.1 Proの54.2%を大きく引き離した。
6月1日にリリースされたMiniMax M3は、コーディングベンチマークでクローズドモデルを凌駕しながら、API価格は入力100万トークンあたり$0.30(約45円)。GPT-5.5の10分の1以下だ。しかもオープンウェイト。10日以内にモデルウェイトとテクニカルレポートが公開される予定で、誰でもローカルで動かせるようになる。
上海のAIスタートアップMiniMaxが、3月のM2.7に続いてまた大きな一歩を踏み出した。
MSA — 100万トークンを実用的にした仕組み
M3の技術的な核心は、MSA(MiniMax Sparse Attention)と呼ばれる独自のアテンション機構にある。
従来のTransformerはすべてのトークン間でアテンションを計算する。コンテキストが長くなるほど計算量は二次関数的に膨れ上がり、100万トークンのコンテキストウィンドウは「対応はしているが、実用的な速度では動かない」というのが業界の暗黙の了解だった。
MSAはここを根本から設計し直した。全トークンにアテンションを張るのではなく、KVキャッシュの中から関連性の高いブロックだけを選択して処理する。結果、M2世代と比較してプリフィル速度が9.7倍、デコーディング速度が15.6倍に向上した。1トークンあたりの推論計算量は従来の20分の1に抑えられている。
これは単なるスペック上の数字ではない。100万トークンの長いコンテキストを「実際に速く処理できる」ことで、大規模コードベースの全体を一度に読み込むような使い方が現実的になる。長文要約で従来1分かかっていた処理が約3.8秒で完了するという報告もある。
ベンチマークの全貌
M3の性能をもう少し細かく見てみよう。
| ベンチマーク | MiniMax M3 | GPT-5.5 | Gemini 3.1 Pro | Claude Opus 4.8 |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0% | 58.6% | 54.2% | 69.2% |
| Terminal-Bench 2.1 | 66.0% | — | — | 74.6% |
| OSWorld-Verified | 70.06% | — | — | — |
| BrowseComp | 83.5% | — | — | — |
コーディング能力についてはGPT-5.5やGemini 3.1 Proを超えているが、Claude Opus 4.8にはまだ差がある。SWE-Bench Proで10ポイント以上、Terminal-Benchで8.6ポイント差。フロンティアモデルの頂点に立ったわけではない。
ただし、ここで注目すべきは「誰のためのモデルか」だ。Opus 4.8はAPI価格が入力$5/M・出力$25/Mで、M3とは17倍のコスト差がある。同じ予算でM3を使えば、17倍の量のコードを処理できる計算になる。
マルチモーダル × コーディング × 長文脈
M3の注目すべき特徴は、複数の能力を単一モデルに統合した点だ。
コーディング能力、100万トークンの長文脈処理、ネイティブマルチモーダル入力(画像・動画)、そしてコンピュータ操作(OSWorld-Verified 70.06%)。これらを個別に強いモデルは存在するが、すべてをオープンウェイトの1つのモデルで実現したのはM3が初めてだと、MiniMaxは主張している。
たとえば、アプリのスクリーンショットを入力してUIのバグを指摘させる。動画を入力して、その内容に基づいたコードを生成させる。こうしたマルチモーダル×コーディングのワークフローが、追加モデルなしで完結する。
正直な課題
ベンチマーク結果はMiniMaxの自己申告であり、第三者による独立検証はまだ少ない。TechTimesも「Frontier Claims, Unverified Benchmarks」と見出しに付けている。テクニカルレポートとオープンウェイトの公開後に、コミュニティによる再現検証が進むまでは、数字を鵜呑みにしないほうがいい。
パラメータ数も非公開のままだ。M2.7ではアクティブパラメータ数が明示されていたが、M3ではまだ公表されていない。モデルサイズがわからなければ、ローカル実行に必要なVRAM要件も見積もれない。
さらに、MiniMaxのAPIは中国国内のサーバーから提供されている。レイテンシやデータ主権の観点で、日本から使う場合には考慮が必要になる。OpenRouterなどのルーティングサービス経由であれば、ある程度カバーできるかもしれない。
料金
APIの現在の料金はプロモーション価格で提供されている。
| 入力(/M tokens) | 出力(/M tokens) | |
|---|---|---|
| プロモーション価格 | $0.30(約45円) | $1.20(約180円) |
| 標準価格 | $0.60(約90円) | $2.40(約360円) |
いずれの価格帯でも、GPT-5.5やGemini 3.1 Proに対して大幅なコスト優位がある。標準価格に戻ったとしても、クローズドモデルの5〜10分の1に収まる計算だ。
DeepSeek V4とどう違うのか
中国発のオープンモデルとしてはDeepSeek V4が先行している。M3との主な違いはアプローチだ。
DeepSeek V4-Proは1.6兆パラメータ(アクティブ49B)のMoEモデルで、パラメータ数をスケールさせて性能を追求する「力技」寄り。対するM3は、MSAアーキテクチャで推論効率そのものを改善する設計哲学だ。パラメータ数は非公開だが、20分の1の計算量削減をアピールしている点から、効率重視の姿勢が見える。
両者は競合するが、ユーザーにとっては選択肢が増えたこと自体が利点だ。OpenRouter経由で簡単にスイッチできるし、用途に応じて使い分ける時代に入っている。
使ってみたい人へ
M3はすでにAPIとして利用可能だ。OpenAI互換のAPIフォーマットを採用しているため、既存のコードでモデルIDを変更するだけで切り替えられる。
MiniMax Codeから直接利用するか、OpenRouter経由でアクセスできる。Kilo Code、OpenCode、Claude Codeなど、MCP対応のコーディングツールからも呼び出せるとのことだ。
10日以内にオープンウェイトが公開されれば、ローカル実行も可能になる。ただし、パラメータ数が不明なため、必要なGPUスペックは現時点では推測できない。
中国AIモデルの勢いが止まらない
2026年に入ってから、中国発のオープンモデルの躍進が際立つ。DeepSeek V4、Qwen 3.7-Max、Kimi K2.6、そしてMiniMax M3。毎月のようにフロンティアに迫るモデルが登場し、しかも価格は欧米勢の数分の1から数十分の1だ。
M3のリリースが示しているのは、「フロンティア性能はもはやクローズドモデルの専売特許ではない」ということだ。オープンウェイトで公開され、誰でも検証でき、ファインチューニングできるモデルが、ベンチマーク上でGPT-5.5と勝負できるレベルに達した。
ただし、ベンチマークスコアと実運用の品質は別物だ。テクニカルレポートの公開とコミュニティによる検証を待って、改めて評価したい。
関連記事
35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理
12日間で4社が出揃った — 中国AIコーディングモデル比較、どれを使うのが正解か
GLM-5.1・Kimi K2.6・DeepSeek V4・MiniMax M2.7を料金・性能で横並び比較。用途別の選び方を解説。
295Bパラメータをオープンソースで — Tencentの新モデルHy3が静かに出してきた数字
Tencentが295B MoEモデル「Hy3 Preview」をオープンソース公開。SWE-bench 74.4%の実力、入力0.18ドルの価格、既存サービスへの統合状況を解説する。