FlowTune Media

自分のコードを自分で直すAIが現れた — MiniMax M2.7の「自己進化」は何が新しいのか

「モデルが自分自身を改善する」。SFの話ではなく、2026年3月に実際に公開された仕組みの話だ。

中国のAIスタートアップMiniMaxが公開したM2.7は、開発プロセスの中で自律的にスキャフォールド(実行環境の足場コード)を書き換え、100ラウンド以上の試行錯誤を繰り返してパフォーマンスを30%向上させた。そしてその改善済みモデルがオープンソースとして公開されている。

MiniMax M2.7

自己進化とは何か — 正確に理解する

先に誤解を解いておきたい。M2.7は「ユーザーが使っているうちに勝手に賢くなる」モデルではない。

正確にはこうだ。MiniMaxの社内ハーネスが、M2.7にタスクを渡し、失敗したら失敗の軌跡を分析させ、改善案を書かせ、それを評価し、良ければ採用する — このループを自律的に100回以上繰り返した。人間の研究者は「クリティカルな判断ポイント」でだけ介入し、それ以外はM2.7が自分で自分を直していった。

つまり「自己進化」とは、最終的にデプロイされるモデルの推論時の話ではなく、開発フェーズの自動化の話。ユーザーが手にするのは「自分で自分を鍛え上げた結果」の完成品だ。

数字で見る実力

ベンチマークの結果を見ると、M2.7のポジションがわかる。

  • SWE-Pro: 56.22%(複数言語のソフトウェアエンジニアリング。GPT-5.3-Codex級)
  • Terminal Bench 2: 57.0%(複雑なシステム理解)
  • VIBE-Pro: 55.6%(プロジェクト全体の配信能力)
  • MLE Bench Lite: 66.6%(機械学習タスクのメダル率)

SWE-bench Verified(より一般的な指標)では80%超のKimi K2.6やClaude Opus 4.6には及ばないが、SWE-Proという「より現実的なマルチ言語テスト」で56%を出しているのは印象的だ。

入力トークンは$0.30/100万トークン。Claude Opus 4.7の$15と比べると50分の1。DeepSeek V4-Flashよりは高いが、性能対コストでは最前線に位置する。

実際に何に使えるか

M2.7はMiniMax AgentMiniMax API Platformから利用でき、Claude Code、Cursor、Clineなどの主要コーディングエージェントとも連携する。

価格の安さを活かした使い方として、テストコードの自動生成やコードレビューの一次フィルターが現実的だ。$0.30/Mトークンなら、1日数千ファイルのレビューを回してもコストは月数ドルに収まる。

もう一つ注目したいのは、MLE Bench Liteで66.6%という機械学習タスクのスコア。データサイエンスの前処理やモデル選択の自動化に使える可能性がある。人間の研究者が「方針を決めて、実装はM2.7に任せる」というワークフロー。実際にMiniMax社内ではRL研究の30〜50%をM2.7が自律処理しているという。

「自己進化」が本当に面白い理由

技術的に新しいのは、モデルが改善するという事実そのものではなく、「改善の方法論を公開した」ことにある。MiniMaxは自己進化のワークフロー — 失敗分析→改善計画→コード修正→評価→採否判定のループ — を論文とともに公開している。

これは他の組織が自社モデルに同じ手法を適用できることを意味する。将来的に、企業が独自のドメイン知識でファインチューニングしたモデルを、さらに自己改善ループで磨き上げるという2段構えの開発が一般化するかもしれない。

正直、「自己進化」という言葉のインパクトに対して、実際の中身は「評価→改善のCI/CDを自動で回した」に近い。だが「それを100ラウンド、人間の介入なしに実行できた」という事実は、AIモデル開発のコストと速度を根本的に変える可能性がある。

注意点

商用利用には事前の書面申請が必要だ。個人利用やリサーチ用途なら申請なしで使えるが、プロダクションに組み込む場合はライセンス確認が必須になる。Apache 2.0のQwen 3.6やDeepSeek V4とはここが異なる。

また、「自己進化」のワークフローがオープンソースで公開されているとはいえ、同じ結果を再現するにはMiniMax級の計算リソースが前提になる。手法は公開されているが、実行は誰にでもできるわけではない。

関連記事