FlowTune Media

寝ている間にAIが100回実験する — Karpathyの「AutoResearch」がML研究を変えつつある

朝起きたら、AIが一晩で100回の実験を終わらせていた。しかも最良の結果だけが残っている。

これはSFではなく、Andrej Karpathyが2026年3月にGitHubに公開したAutoResearchで実際に起きていることだ。公開から1ヶ月で66,000スターを超え、Xでの発表は860万ビューを記録した。

ShopifyのCEO、トビ・リュトケはこれを自社のストアフロント描画コードに向けたところ、93回の自動コミットでレンダリング速度が53%向上した。さらに0.8Bパラメータの社内モデルでは、37回の実験で品質が19%改善されたという。

一人のエンジニアが一晩放置しただけで。

仕組みは驚くほどシンプル

AutoResearchのリポジトリを開くと拍子抜けするかもしれない。意味のあるファイルは3つしかない。

核心はprogram.mdというMarkdownファイルだ。これがClaude CodeやCodexといったAIコーディングエージェントへの「指示書」になる。内容は3つのレイヤーで構成されている。エージェントに何を探索させるか(instructions)、何を変えてはいけないか(constraints)、いつ止めるか(stopping criteria)。

エージェントはこの指示に従い、以下のループを繰り返す。

  1. train.pyを修正する
  2. GPU上で5分間学習を実行する
  3. 評価メトリクス(val_bpb)を確認する
  4. 改善していればコミット、悪化していればリバート
  5. 1に戻る

5分間の固定学習なので、1時間に約12回、一晩で約100回の実験が回る。外部依存はPyTorchと少数のパッケージだけ。分散学習もなければ複雑な設定ファイルもない。GPU1枚、ファイル1つ、メトリクス1つ。

Karpathyはこの潔さを意図的に選んでいる。

なぜ「たった3ファイル」が支持されるのか

ML研究のツールは複雑化の一途を辿ってきた。Weights & Biases、MLflow、Optuna——どれも強力だが、セットアップに時間がかかる。AutoResearchが66,000スターを集めた理由は、その真逆を行ったからだ。

program.mdを書き換えるだけで実験の方向性を変えられる。Markdownだから、AIエージェントにとっても人間にとっても読み書きしやすい。「モデルアーキテクチャを変えずに学習率のスケジュールだけ探索せよ」「アテンション機構に限定して改善を探せ」——制約を自然言語で指定できる。

Karpathy自身のベンチマークでは、NVIDIA H100上で89回の実験を回し、val_bpbを0.9979から0.9773に改善。別のセッションでは126回の実験で0.9697まで到達している。数字だけ見ると地味だが、LLMの学習においてこの差は無視できない。

MLモデルの最適化だけではない

AutoResearchの真価は「パターンが汎用的」であるところにある。コードを変更→実行→メトリクスで評価→改善ならキープ、そうでなければ破棄。このループは、ML学習に限定されるものではない。

Shopifyのトビ・リュトケがストアフロントのレンダリング速度に適用したのはまさにこの例だ。MLモデルではなく、テンプレートエンジンのコードを最適化した。93回の自動コミットで53%の高速化。これはAutoResearchの発想を「パフォーマンス最適化」という別の領域に転用した結果だ。

すでにコミュニティでは「Autoimprove」と呼ばれる派生パターンが生まれている。Webアプリのレスポンスタイムを最適化する、テストカバレッジを上げる、コンパイル時間を短縮する。評価メトリクスさえ定義できれば、同じループが回せる。

Red Hatは自社のOpenShift AI上で198回の実験を人間の介入なしに実行し、その結果をブログで公開している。

正直な感想と限界

AutoResearchは素直にすごい。が、万能ではない。

まず、GPU1枚・5分の学習という制約は、大規模モデルの学習には向かない。0.8Bパラメータのモデルで100回実験するのと、70Bパラメータのモデルで1回学習するのは全く異なるリソース配分だ。AutoResearchは小規模モデルの高速実験に特化している。

次に、探索の方向性はAIエージェントの判断力に依存する。program.mdで制約を与えられるとはいえ、エージェントが「筋の良い改善」を思いつけるかどうかは、使うモデルの品質次第だ。無意味な変更を100回繰り返して「改善なし」で終わる可能性もゼロではない。

それから、メトリクスが1つに絞られている設計は、複数の指標を同時に最適化したいケース(精度とレイテンシのトレードオフなど)には向かない。

とはいえ、「一晩放置しておけば、少なくとも何かは試してくれる」という価値は大きい。人間のML研究者が1日に手動で回せる実験は3〜5回がせいぜいだ。その20倍を自動で、しかもGPU1枚で回せるのは実用的な意味がある。

動かし方

必要なのはGPU1枚(NVIDIA推奨)と、Claude CodeまたはCodex。

git clone https://github.com/karpathy/autoresearch

program.mdに探索方針を書き、AIコーディングエージェントにリポジトリを渡す。あとは放置するだけだ。PyTorch以外の依存関係はほぼない。

関連記事