$100でChatGPTを作る — Karpathyが公開したNanochatの設計思想
2019年、OpenAIがGPT-2を訓練するのにかかったコストは推定43,000ドルだった。
2025年10月、Andrej KarpathyがNanochatを公開した。同等の性能を持つモデルを、H100のスポットインスタンスで約15ドル — 通常料金でも48ドルで訓練できる。「$100で買える最高のChatGPT」というのがKarpathy自身のキャッチコピーだ。
GitHubのスター数は43,000を超え、MIT ライセンスで誰でも自由に使える。
nanoGPTの「続き」を全部やった
KarpathyのnanoGPTを知っている人は多いだろう。あれはLLMの事前学習だけを扱ったミニマルな実装だった。Nanochatはその先に進む。
トークナイゼーション、事前学習、中間学習、SFT(教師あり微調整)、強化学習、評価、推論エンジン、チャットUI。LLMの開発に必要な全工程が、約8,000行のPyTorchコード(+Rust製トークナイザー)に収まっている。
最終的に出来上がるのは、ブラウザで対話できるChatGPT風のアシスタントだ。単なるテキスト生成器ではなく、会話のフォーマットを理解し、ツール使用のタグも扱える。nanoGPTが「事前学習を理解する教材」だったのに対して、Nanochatは「LLMの製品化プロセスを理解する教材」と言える。
設定はたった1つの数字
Nanochatの設計で最も巧妙なのは、モデル全体がdepth(Transformerの層数)という1つの整数で制御される点だ。
depthを指定すると、モデルの幅、ヘッド数、学習率、訓練ステップ数、weight decayが自動的に計算される。手動でハイパーパラメータを調整する必要がない。しかもこの自動設定は計算効率が最適化されるように設計されている。
depth 24〜26でGPT-2相当の性能が出る。depth 32にすると19億パラメータのモデルになり、8xH100で約33時間、コスト約800ドルで訓練できる。d32のCOREスコアは0.31で、オリジナルのGPT-2(0.256)を上回る。
「大きいモデルが欲しければdepthを上げる。小さくていいなら下げる。」これ以上シンプルな設定は思いつかない。
何に使えるか
正直に言えば、Nanochatで訓練できるモデルはGPT-2〜2B規模であり、2026年のフロンティアモデルには遠く及ばない。ChatGPTやClaudeの代替にはならない。
だがそれは目的が違う。
LLMの仕組みを理解したいエンジニアや学生にとって、これ以上の教材はない。 8,000行という規模は、1〜2日あれば全体を読み通せる。MegatronやDeepSpeedのような大規模フレームワークは数十万行あり、何が起きているのか追うのが難しい。Nanochatは「なぜそうなっているのか」が読めるサイズに収まっている。
実際、英国政府のAI部門(i-dot-ai)がNanochatを使ったワークショップを開催し、学術論文も複数発表されている。
もう1つの使い道は、AIリサーチの実験台だ。Karpathy自身が2026年3月に「autoresearch」というプロジェクトを公開している。AIエージェントにNanochatの訓練コードを渡し、一晩かけてコードを書き換え→訓練→評価→改善のサイクルを自律的に回させるものだ。小規模モデルだからこそ、アイデアの検証を高速に回せる。
素直にすごいと思う点、そうでもない点
すごい点: Nanochatの価値は「何ができるか」ではなく「何が理解できるか」にある。RLHF(正確にはGRPO)まで含めた完全なパイプラインが、依存関係なしに動く。トークナイザーがRustで書かれているのも、BPEの動作原理を低レベルから理解するのに役立つ。GSM8Kの精度がRLで8%→20%に跳ね上がるのを自分の手で確認できるのは、論文を読むだけでは得られない体験だ。
そうでもない点: 8xH100を前提としている時点で、個人が自宅で動かすのは難しい。クラウドGPUのレンタルが必要で、d32の訓練には800ドルかかる。「$100」のキャッチコピーは最小構成の話であり、まともに使えるモデルを作るにはそれなりのコストがかかる。コミュニティではシングルGPU対応の議論もあるが、公式にはサポートされていない。
LLMを「使う」から「作る」へ
2026年の今、ほとんどの開発者はLLMを「APIを叩く側」として使っている。それ自体は正しい選択だが、モデルの中で何が起きているかを知っている開発者とそうでない開発者では、プロンプトの設計やファインチューニングの判断力に差が出る。
NanochatはLLMのブラックボックスを開けるための、おそらく今ある中で最もアクセスしやすい入口だ。
関連記事
プロンプト1つでLLMをファインチューニング&デプロイ — Pioneer(Fastino)の仕組みと可能性
Pioneer(Fastino)はプロンプト1つでLLMのファインチューニングからデプロイまでを自動化するAIエージェント。Adaptive Inferenceやサポートモデル、注意点を解説。
295Bパラメータをオープンソースで — Tencentの新モデルHy3が静かに出してきた数字
Tencentが295B MoEモデル「Hy3 Preview」をオープンソース公開。SWE-bench 74.4%の実力、入力0.18ドルの価格、既存サービスへの統合状況を解説する。
Claudeより96%安い米国製のオープンモデルが、こっそりPinchBench 2位に上がってきた話
米Arcee AIが400BのOSS推論モデルTrinity-Large-ThinkingをApache 2.0で公開。Claude Opus 4.6比96%安、長期エージェント特化の中身と評価を整理する。