訓練の50%を自分でこなすAI — MiniMax M2.7「自己進化」モデルの衝撃
56.22%。これはMiniMax M2.7がSWE-Proで記録したスコアだ。Claude Opus 4.6やGPT-5と肩を並べる数字だが、本当に驚くべきはその先にある。このモデルは、自分自身の訓練プロセスの30〜50%を自律的に実行した。人間が教えるのではなく、自分で自分を改善するAIが、ついに実用レベルに到達した。
MiniMaxとは何者か
MiniMaxは上海を拠点とするAIスタートアップだ。日本での知名度はまだ低いが、2025年末にリリースしたオープンソースモデルMiniMax-M2がHugging Faceで大きな注目を集め、その後のM2.5で着実に性能を伸ばしてきた。そして2026年3月18日に発表されたM2.7で、フロンティアモデルの仲間入りを果たした。
中国発のAIモデルといえばDeepSeekやQwenが話題になりがちだが、MiniMaxはアプローチが異なる。パラメータ数の巨大化を追うのではなく、「いかに効率よく、いかに賢く訓練するか」に焦点を当てている。その結晶がM2.7の「自己進化」だ。
自己進化 — AIが自分を訓練する
M2.7の最大の特徴は、強化学習(RL)の研究ワークフローの30〜50%をモデル自身が自律的に処理したという点だ。具体的には、以下のループを100ラウンド以上にわたって自律的に回した。
- 失敗の分析 — 自分の出力を検証し、どこで間違えたかを特定
- 改善計画の立案 — 失敗パターンから訓練戦略を設計
- コード修正の実装 — RLハーネスのコードを自ら書き換え
- 評価とフィードバック — 修正後の性能を測定し、次のサイクルに反映
- 継続/停止の判断 — 改善が収束したかを自己判断
従来のLLM開発では、これらすべてのステップを人間の研究者が担当していた。M2.7はその半分近くを自分で回す。MiniMaxの公式発表によれば、これにより開発速度が大幅に加速し、人間の研究者はより創造的な課題に集中できるようになったという。
率直に言って、これは技術的に非常に興味深い。AIの自己改善(self-improvement)は長年の研究テーマだが、実際の商用モデルの訓練に組み込まれた例はほとんどない。M2.7は「AIが自分を改善する」というSF的なコンセプトを、限定的ながらも実用化した初めてのケースと言える。
10Bパラメータで戦える理由
M2.7は総パラメータ数230BのMixture-of-Experts(MoE)アーキテクチャを採用しており、1回の推論でアクティブになるのはわずか10Bパラメータだ。230Bの「知識の引き出し」を持ちながら、計算コストは10Bモデル並みに抑えられる。
この設計が意味するのは、速度とコストの圧倒的な優位性だ。推論速度は約100トークン/秒で、Claude Opus 4.6の約3倍。そしてこの速さが、エージェントワークフロー(計画→実行→検証のループ)を高速に回すための鍵になる。
コンテキストウィンドウは200Kトークン。Opus 4.6の1Mトークンには及ばないが、ほとんどの実用的なタスクには十分だ。なお、M2.7はテキスト専用で画像入力には対応していない。マルチモーダルが必要な場合は別のモデルを選ぶ必要がある。
ベンチマーク — 数字で見る実力
主要ベンチマークでの成績を整理する。
| ベンチマーク | M2.7 | Claude Opus 4.6 | 備考 |
|---|---|---|---|
| SWE-Pro | 56.22% | 約56% | 実世界のSEチケット解決率 |
| Terminal Bench 2 | 57.0% | — | システムレベルの理解力 |
| VIBE-Pro | 55.6% | 約56% | リポジトリレベルのコード生成 |
| MLE Bench Lite | 66.6% | — | ML競技、Gemini 3.1と同等 |
| GDPval-AA | 1495 ELO | — | マルチエージェント評価 |
注目すべきは、これらのスコアがOpus 4.6と互角でありながら、コストが桁違いに安いという点だ。
価格破壊 — 1/50のコスト
ここがM2.7の最もインパクトのある部分かもしれない。
| 項目 | MiniMax M2.7 | Claude Opus 4.6 | 倍率 |
|---|---|---|---|
| 入力 | $0.30 / 1Mトークン | $15 / 1Mトークン | 50倍安い |
| 出力 | $1.20 / 1Mトークン | $75 / 1Mトークン | 60倍安い |
Opus 4.6と同等の性能を、入力で50分の1、出力で60分の1の価格で利用できる。これは誤記ではない。MoEアーキテクチャによるアクティブパラメータの少なさが、この価格を可能にしている。
APIはMiniMax公式プラットフォームのほか、OpenRouterやHugging Face Spaces経由でもアクセス可能だ。OpenRouterではトライアルクレジットで無料で試せるため、まずは触ってみることをお勧めする。
気になる点
もちろん、手放しで絶賛はできない。
まず、自己進化の「30〜50%」という数字の定義が曖昧だ。訓練ワークフロー全体のうち、どの部分を自律化したのかの詳細は十分に公開されていない。ログ分析やハイパーパラメータ調整のような比較的定型的な作業を自動化しただけなのか、より本質的な訓練戦略の設計まで含むのかで、意味合いは大きく変わる。
次に、テキスト専用という制約。2026年のフロンティアモデルとしては、画像入力に対応していないのは明確な弱点だ。コーディングやテキスト処理に特化するならば問題ないが、汎用的なAIアシスタントとしての用途には限界がある。
また、MiniMax自体の企業としての継続性やサポート体制も未知数だ。AnthropicやOpenAIと比べると、ドキュメントやコミュニティの厚みはまだ薄い。プロダクション環境で長期的に依存するには、もう少し実績が必要だろう。
筆者の見解
M2.7が示したのは、「巨大なモデルを力任せに訓練する」時代の終わりの始まりだと思う。10Bアクティブパラメータで230Bモデルの知識を活用し、訓練プロセスの半分を自動化する。これはAI開発の民主化に向けた重要な一歩だ。
特にコスト面のインパクトは大きい。Opus 4.6の1/50の価格でほぼ同等の性能が得られるなら、スタートアップや個人開発者にとっての選択肢が劇的に広がる。「最高性能のモデルは高くて使えない」という制約が、M2.7によって崩れつつある。
一方で、自己進化という概念には慎重な目も必要だ。AIが自分自身を改善するプロセスが不透明なまま進めば、安全性の検証が追いつかなくなるリスクがある。MiniMaxにはこの部分の透明性をさらに高めてほしい。
現時点でM2.7は「コーディング・エージェント用途で最もコスパの良いフロンティアモデル」と評価できる。日本語での情報がまだほとんどないモデルだが、今後の動向を注視する価値は十分にある。
関連記事
AMD PACE — GPU不足時代、EPYCで380トークン/秒が出るという静かな一撃
AMDがLLM推論最適化エンジン「PACE」を公開。5th Gen EPYCでvLLMの1.6〜4.45倍の速度を達成。GPU不足時代のCPU推論という選択肢を整理する。
AMI Labs — 「LLMは行き止まり」と断言するチューリング賞受賞者が、10億ドルで賭けに出た
ヤン・ルカンが設立したAMI Labsは、LLMに代わる「ワールドモデル」を構築するパリ発のAIスタートアップ。$1.03Bの資金調達、JEPAアーキテクチャ、AI業界への影響を解説。
Gemini 3.1 Flash Lite — 100万トークン処理で「1ドル以下」の衝撃
Google Gemini 3.1 Flash Liteを解説。入力$0.25/100万トークンの超低価格、2.5倍速のレスポンス、Thinking Levels機能の使い方、翻訳・モデレーション・エージェントルーターの活用法を紹介