80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話

PrismML Bonsai

通常、80億パラメータのLLMを動かすには16GB前後のメモリが要る。GPUなしのノートPCではまず無理で、iPhoneなら論外だ。

ところが、1.15GBのファイルサイズで80億パラメータを動かすモデルが登場した。しかも既存モデルを圧縮したのではなく、最初から1ビットの重みで学習している。

PrismMLがリリースした「Bonsai」シリーズだ。

量子化とは何が違うのか

ローカルLLMに馴染みのある人なら「GGUF」「Q4_K_M」といった量子化フォーマットを知っているだろう。これらは16ビットや32ビットで学習したモデルを、後から4ビットや8ビットに丸めて軽くする手法だ。精度と引き換えにサイズを削る。

Bonsaiのアプローチはまったく違う。重みが最初から{-1, +1}の2値しかない。埋め込み層、アテンション、MLP、LMヘッドまで、ネットワーク全体が1ビットで設計・学習されている。Caltechの研究者が開発した新しい数学理論に基づいたもので、GoogleのTPU v4上でスクラッチから訓練された。

つまり「後から圧縮した」のではなく「最初から小さく生まれた」モデルだ。

数字で見る性能

サイズだけ小さくて使い物にならないなら意味がない。ベンチマークの数字を見てみる。

Bonsai 8Bは、MMLU Redux、GSM8K、HumanEval+、IFEvalなど主要ベンチマークで、同サイズの16ビットモデル（Qwen3 8Bなど）と競争力のあるスコアを出している。PrismMLが提唱する「Intelligence Density」（1GBあたりの性能指標）ではQwen3 8Bの10.6倍という数字だ。

推論速度はiPhone 17 Pro Maxで毎秒44トークン。RTX 4090では16ビットモデル比で消費電力が4分の1になる（0.276 mWh/token vs 1.134 mWh/token）。

正直、この数字は驚く。サイズを14分の1にしながらベンチマーク性能を維持し、速度は8倍、電力は4分の1。何かを大きく犠牲にしている気がするのだが、公開されたベンチマークスコアを見る限り、壊滅的な劣化は起きていない。

3つのサイズ展開

Bonsaiは3つのバリアントがある。

Bonsai 8B — 1.15GB。フラグシップ。スマートフォンやタブレットで動作
Bonsai 4B — 0.5GB。より軽量なデバイス向け
Bonsai 1.7B — 0.24GB。240MBでLLMが動くという事実がすごい

Apple MLXとNvidia llama.cpp CUDAに対応し、WebGPUによるブラウザ上での実行デモも公開されている。ライセンスはApache 2.0。商用利用も自由だ。

なぜこれが重要なのか

ローカルLLMの世界では「いかに大きなモデルを手元で動かすか」が主要テーマだった。M4 Maxで70Bモデルを動かす、24GBのRTX 4090で量子化した405Bを押し込む——そういう方向の話が多い。

Bonsaiが提示しているのは別のベクトルだ。1GBに収まるなら、スマートフォンのバックグラウンドで常時動かすことが現実的になる。240MBの1.7BモデルならIoTデバイスやウェアラブルにも載る。ネットワーク接続なしで、完全にオフラインの環境でAIが動く。

これがもし今後さらにスケールして、70Bパラメータ相当の1ビットモデルが10GB以下で実現したら、クラウドAPIへの依存構造そのものが変わりうる。まだそこまでは行っていないが、方向性は明確に見えている。

気になる点

限界がないわけではない。

1ビットの重みでは表現力に天井がある。現状のベンチマークでは健闘しているが、長い推論チェーンや微妙なニュアンスの把握で16ビットモデルに劣る場面はあるだろう。PrismML自身も、まだ「ベンチマーク同等」であって「ベンチマーク超え」は主張していない。

また、新しい学習パラダイムのため、ファインチューニングやLoRA適用が既存のエコシステムと互換性があるかも不明だ。1ビットモデルのファインチューニング手法はまだ発展途上で、カスタマイズしたい開発者にとってはハードルになる可能性がある。

Caltechから商用へ

PrismMLはCaltech発のスタートアップで、Khosla Ventures、Cerberus Capital、Caltechから1,625万ドル（約24億円）のシード資金を調達している。研究プロジェクトではなく、商用化を前提とした動きだ。

モデルの重みはHugging Faceで公開されており、今すぐ試せる。「1GBのLLM」という響きに興味を持ったなら、手元のMacやiPhoneで動かしてみるのが一番早い。

80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話

量子化とは何が違うのか

数字で見る性能

3つのサイズ展開

なぜこれが重要なのか

気になる点

Caltechから商用へ

関連記事

DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日

Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか