80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話

通常、80億パラメータのLLMを動かすには16GB前後のメモリが要る。GPUなしのノートPCではまず無理で、iPhoneなら論外だ。
ところが、1.15GBのファイルサイズで80億パラメータを動かすモデルが登場した。しかも既存モデルを圧縮したのではなく、最初から1ビットの重みで学習している。
PrismMLがリリースした「Bonsai」シリーズだ。
量子化とは何が違うのか
ローカルLLMに馴染みのある人なら「GGUF」「Q4_K_M」といった量子化フォーマットを知っているだろう。これらは16ビットや32ビットで学習したモデルを、後から4ビットや8ビットに丸めて軽くする手法だ。精度と引き換えにサイズを削る。
Bonsaiのアプローチはまったく違う。重みが最初から{-1, +1}の2値しかない。埋め込み層、アテンション、MLP、LMヘッドまで、ネットワーク全体が1ビットで設計・学習されている。Caltechの研究者が開発した新しい数学理論に基づいたもので、GoogleのTPU v4上でスクラッチから訓練された。
つまり「後から圧縮した」のではなく「最初から小さく生まれた」モデルだ。
数字で見る性能
サイズだけ小さくて使い物にならないなら意味がない。ベンチマークの数字を見てみる。
Bonsai 8Bは、MMLU Redux、GSM8K、HumanEval+、IFEvalなど主要ベンチマークで、同サイズの16ビットモデル(Qwen3 8Bなど)と競争力のあるスコアを出している。PrismMLが提唱する「Intelligence Density」(1GBあたりの性能指標)ではQwen3 8Bの10.6倍という数字だ。
推論速度はiPhone 17 Pro Maxで毎秒44トークン。RTX 4090では16ビットモデル比で消費電力が4分の1になる(0.276 mWh/token vs 1.134 mWh/token)。
正直、この数字は驚く。サイズを14分の1にしながらベンチマーク性能を維持し、速度は8倍、電力は4分の1。何かを大きく犠牲にしている気がするのだが、公開されたベンチマークスコアを見る限り、壊滅的な劣化は起きていない。
3つのサイズ展開
Bonsaiは3つのバリアントがある。
- Bonsai 8B — 1.15GB。フラグシップ。スマートフォンやタブレットで動作
- Bonsai 4B — 0.5GB。より軽量なデバイス向け
- Bonsai 1.7B — 0.24GB。240MBでLLMが動くという事実がすごい
Apple MLXとNvidia llama.cpp CUDAに対応し、WebGPUによるブラウザ上での実行デモも公開されている。ライセンスはApache 2.0。商用利用も自由だ。
なぜこれが重要なのか
ローカルLLMの世界では「いかに大きなモデルを手元で動かすか」が主要テーマだった。M4 Maxで70Bモデルを動かす、24GBのRTX 4090で量子化した405Bを押し込む——そういう方向の話が多い。
Bonsaiが提示しているのは別のベクトルだ。1GBに収まるなら、スマートフォンのバックグラウンドで常時動かすことが現実的になる。240MBの1.7BモデルならIoTデバイスやウェアラブルにも載る。ネットワーク接続なしで、完全にオフラインの環境でAIが動く。
これがもし今後さらにスケールして、70Bパラメータ相当の1ビットモデルが10GB以下で実現したら、クラウドAPIへの依存構造そのものが変わりうる。まだそこまでは行っていないが、方向性は明確に見えている。
気になる点
限界がないわけではない。
1ビットの重みでは表現力に天井がある。現状のベンチマークでは健闘しているが、長い推論チェーンや微妙なニュアンスの把握で16ビットモデルに劣る場面はあるだろう。PrismML自身も、まだ「ベンチマーク同等」であって「ベンチマーク超え」は主張していない。
また、新しい学習パラダイムのため、ファインチューニングやLoRA適用が既存のエコシステムと互換性があるかも不明だ。1ビットモデルのファインチューニング手法はまだ発展途上で、カスタマイズしたい開発者にとってはハードルになる可能性がある。
Caltechから商用へ
PrismMLはCaltech発のスタートアップで、Khosla Ventures、Cerberus Capital、Caltechから1,625万ドル(約24億円)のシード資金を調達している。研究プロジェクトではなく、商用化を前提とした動きだ。
モデルの重みはHugging Faceで公開されており、今すぐ試せる。「1GBのLLM」という響きに興味を持ったなら、手元のMacやiPhoneで動かしてみるのが一番早い。
関連記事
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか
Metaが4月8日に発表したオープンソースのLlama 5を解説。600Bパラメータ・5Mコンテキスト・System 2思考の意味と、Muse Sparkとの関係を整理する。
自社のLLMが脱獄されるか数分で試せる — Mozillaが無料公開した0DIN AI Scannerの中身
Mozillaが4月9日に公開したOSSのAIセキュリティスキャナー0DIN。179のプローブでLLMのジェイルブレイクやプロンプトインジェクションを検査できる。GARAKとの違いと導入手順を解説する。