訓練の50%を自分でこなすAI — MiniMax M2.7「自己進化」モデルの衝撃
56.22%。これはMiniMax M2.7がSWE-Proで記録したスコアだ。Claude Opus 4.6やGPT-5と肩を並べる数字だが、本当に驚くべきはその先にある。このモデルは、自分自身の訓練プロセスの30〜50%を自律的に実行した。人間が教えるのではなく、自分で自分を改善するAIが、ついに実用レベルに到達した。
MiniMaxとは何者か
MiniMaxは上海を拠点とするAIスタートアップだ。日本での知名度はまだ低いが、2025年末にリリースしたオープンソースモデルMiniMax-M2がHugging Faceで大きな注目を集め、その後のM2.5で着実に性能を伸ばしてきた。そして2026年3月18日に発表されたM2.7で、フロンティアモデルの仲間入りを果たした。
中国発のAIモデルといえばDeepSeekやQwenが話題になりがちだが、MiniMaxはアプローチが異なる。パラメータ数の巨大化を追うのではなく、「いかに効率よく、いかに賢く訓練するか」に焦点を当てている。その結晶がM2.7の「自己進化」だ。
自己進化 — AIが自分を訓練する
M2.7の最大の特徴は、強化学習(RL)の研究ワークフローの30〜50%をモデル自身が自律的に処理したという点だ。具体的には、以下のループを100ラウンド以上にわたって自律的に回した。
- 失敗の分析 — 自分の出力を検証し、どこで間違えたかを特定
- 改善計画の立案 — 失敗パターンから訓練戦略を設計
- コード修正の実装 — RLハーネスのコードを自ら書き換え
- 評価とフィードバック — 修正後の性能を測定し、次のサイクルに反映
- 継続/停止の判断 — 改善が収束したかを自己判断
従来のLLM開発では、これらすべてのステップを人間の研究者が担当していた。M2.7はその半分近くを自分で回す。MiniMaxの公式発表によれば、これにより開発速度が大幅に加速し、人間の研究者はより創造的な課題に集中できるようになったという。
率直に言って、これは技術的に非常に興味深い。AIの自己改善(self-improvement)は長年の研究テーマだが、実際の商用モデルの訓練に組み込まれた例はほとんどない。M2.7は「AIが自分を改善する」というSF的なコンセプトを、限定的ながらも実用化した初めてのケースと言える。
10Bパラメータで戦える理由
M2.7は総パラメータ数230BのMixture-of-Experts(MoE)アーキテクチャを採用しており、1回の推論でアクティブになるのはわずか10Bパラメータだ。230Bの「知識の引き出し」を持ちながら、計算コストは10Bモデル並みに抑えられる。
この設計が意味するのは、速度とコストの圧倒的な優位性だ。推論速度は約100トークン/秒で、Claude Opus 4.6の約3倍。そしてこの速さが、エージェントワークフロー(計画→実行→検証のループ)を高速に回すための鍵になる。
コンテキストウィンドウは200Kトークン。Opus 4.6の1Mトークンには及ばないが、ほとんどの実用的なタスクには十分だ。なお、M2.7はテキスト専用で画像入力には対応していない。マルチモーダルが必要な場合は別のモデルを選ぶ必要がある。
ベンチマーク — 数字で見る実力
主要ベンチマークでの成績を整理する。
| ベンチマーク | M2.7 | Claude Opus 4.6 | 備考 |
|---|---|---|---|
| SWE-Pro | 56.22% | 約56% | 実世界のSEチケット解決率 |
| Terminal Bench 2 | 57.0% | — | システムレベルの理解力 |
| VIBE-Pro | 55.6% | 約56% | リポジトリレベルのコード生成 |
| MLE Bench Lite | 66.6% | — | ML競技、Gemini 3.1と同等 |
| GDPval-AA | 1495 ELO | — | マルチエージェント評価 |
注目すべきは、これらのスコアがOpus 4.6と互角でありながら、コストが桁違いに安いという点だ。
価格破壊 — 1/50のコスト
ここがM2.7の最もインパクトのある部分かもしれない。
| 項目 | MiniMax M2.7 | Claude Opus 4.6 | 倍率 |
|---|---|---|---|
| 入力 | $0.30 / 1Mトークン | $15 / 1Mトークン | 50倍安い |
| 出力 | $1.20 / 1Mトークン | $75 / 1Mトークン | 60倍安い |
Opus 4.6と同等の性能を、入力で50分の1、出力で60分の1の価格で利用できる。これは誤記ではない。MoEアーキテクチャによるアクティブパラメータの少なさが、この価格を可能にしている。
APIはMiniMax公式プラットフォームのほか、OpenRouterやHugging Face Spaces経由でもアクセス可能だ。OpenRouterではトライアルクレジットで無料で試せるため、まずは触ってみることをお勧めする。
気になる点
もちろん、手放しで絶賛はできない。
まず、自己進化の「30〜50%」という数字の定義が曖昧だ。訓練ワークフロー全体のうち、どの部分を自律化したのかの詳細は十分に公開されていない。ログ分析やハイパーパラメータ調整のような比較的定型的な作業を自動化しただけなのか、より本質的な訓練戦略の設計まで含むのかで、意味合いは大きく変わる。
次に、テキスト専用という制約。2026年のフロンティアモデルとしては、画像入力に対応していないのは明確な弱点だ。コーディングやテキスト処理に特化するならば問題ないが、汎用的なAIアシスタントとしての用途には限界がある。
また、MiniMax自体の企業としての継続性やサポート体制も未知数だ。AnthropicやOpenAIと比べると、ドキュメントやコミュニティの厚みはまだ薄い。プロダクション環境で長期的に依存するには、もう少し実績が必要だろう。
筆者の見解
M2.7が示したのは、「巨大なモデルを力任せに訓練する」時代の終わりの始まりだと思う。10Bアクティブパラメータで230Bモデルの知識を活用し、訓練プロセスの半分を自動化する。これはAI開発の民主化に向けた重要な一歩だ。
特にコスト面のインパクトは大きい。Opus 4.6の1/50の価格でほぼ同等の性能が得られるなら、スタートアップや個人開発者にとっての選択肢が劇的に広がる。「最高性能のモデルは高くて使えない」という制約が、M2.7によって崩れつつある。
一方で、自己進化という概念には慎重な目も必要だ。AIが自分自身を改善するプロセスが不透明なまま進めば、安全性の検証が追いつかなくなるリスクがある。MiniMaxにはこの部分の透明性をさらに高めてほしい。
現時点でM2.7は「コーディング・エージェント用途で最もコスパの良いフロンティアモデル」と評価できる。日本語での情報がまだほとんどないモデルだが、今後の動向を注視する価値は十分にある。
関連記事
GPT-5.5を超え、価格は10分の1 — MiniMax M3の実力と死角
MiniMax M3はGPT-5.5超えのコーディング力を1/10価格で実現するオープンウェイトモデル。実力と課題を解説
自分のコードを自分で直すAIが現れた — MiniMax M2.7の「自己進化」は何が新しいのか
MiniMax M2.7は100回以上の自律改善ループで自身のスキャフォールドを最適化するオープンソースLLM。SWE-Pro 56%、入力$0.30/M。自己進化の仕組みと実際の使い道を整理した。
プロンプト1つでLLMをファインチューニング&デプロイ — Pioneer(Fastino)の仕組みと可能性
Pioneer(Fastino)はプロンプト1つでLLMのファインチューニングからデプロイまでを自動化するAIエージェント。Adaptive Inferenceやサポートモデル、注意点を解説。