活性パラメータ760Mで数学オリンピック91.9% — 「小さいのに賢い」AIモデルの設計思想
パラメータ数が大きいほど賢い——長らくAIモデルの常識だったこの前提に、真正面から挑むモデルが出てきた。
Zyphraが2026年5月にリリースしたZAYA1-8Bは、総パラメータ8.4B(84億)のMixture-of-Experts(MoE)モデルだ。しかし、1トークンの処理に使われる活性パラメータはわずか760M(7.6億)。それでいて、数学オリンピックベンチマーク(AIME'25)で91.9%をマークし、Claude 4.5 SonnetやGemini 2.5 Proといったフロンティアモデルに匹敵するスコアを叩き出した。
Apache 2.0ライセンスで公開されている。
760Mで何ができるのか
具体的な数字を見てみよう。
AIME'25(数学オリンピック級の問題セット)で91.9%。ほとんどのフロンティアモデルが90%前後で頭打ちになるベンチマークで、それを上回っている。さらに、推論時間を伸ばすMarkovian RSAという手法を組み合わせると、APEX-shortlistベンチマークでDeepSeek-V3.2やGPT-OSS-120Bを超えるスコアも報告されている。
コーディングや一般的な推論タスクでも、Llama-3-8B、Qwen3-4B、Gemma3-12Bといった同サイズ帯のオープンモデルを上回るか同等の性能を示す。
活性パラメータが760Mしかないということは、推論時のメモリ消費と計算コストが劇的に小さい。8Bモデルの精度を、1Bモデル並みのリソースで得られる計算になる。
なぜ「小さくて賢い」が可能なのか
MoEアーキテクチャ自体は珍しくない。DeepSeek-V4もQwen 3.6もMoEだ。ZAYA1-8Bが特異なのは、MoE++と呼ぶ独自アーキテクチャで極端に活性パラメータを削っている点にある。
通常のMoEモデルでは活性パラメータが総パラメータの10〜20%程度だが、ZAYA1-8Bは約9%まで絞り込んでいる。それを支えるのがCompressed Convolutional Attention(CCA)という仕組みで、通常のアテンション機構をたたみ込み(畳み込み)で代替し、KVキャッシュを8分の1に圧縮する。メモリ効率が良いので、同じハードウェアでより長いコンテキストを処理できる。
もう一つ、Lightweight Residual Scalingという手法でエキスパート間の残差接続を最適化し、パラメータの「無駄遣い」を減らしている。
NVIDIAではなくAMDで学習した意味
ZAYA1-8Bの学習には1,024基のAMD Instinct MI300X GPU(各192GB HBM)が使われた。NVIDIAのH100やH200ではなく、AMDだ。
これは単なるスポンサーの都合ではない。MI300Xの192GBメモリは、H100の80GBの2.4倍。MoEモデルでは全エキスパートをメモリに載せる必要があるため、大容量メモリが学習効率に直結する。MI300Xなら、コストのかかるテンソル分割やエキスパート分割を避けられる。
ZyphraはAMDのPensando Pollaraネットワーキングも活用しており、分散I/Oで従来比10倍のモデル保存速度を達成したと報告している。
AI学習インフラがNVIDIA一強のなか、AMDハードウェアでフロンティア級の性能を出せることを実証した点は、業界構造として無視できない。
ローカルで動かせるか
760Mの活性パラメータなら、理論的にはかなり控えめなハードウェアでも推論が可能だ。
ただし、MoEモデルの場合は全エキスパートの重みをメモリ上に持つ必要がある。ZAYA1-8Bは総パラメータ8.4Bなので、FP16で約17GB、4bit量子化でも5GB程度のVRAMが必要になる。RTX 4060(8GB VRAM)ならギリギリ動く可能性があるが、快適に使うならRTX 4070以上が現実的だろう。
Ollamaやllama.cppでの動作は確認されていないが、Apache 2.0ライセンスでHugging Faceに公開されているため、技術的に対応できる可能性は高い。コミュニティの量子化モデルが出るかどうかが、ローカルAIユーザーにとっての鍵になる。
正直な評価
すごい点は明確だ。760Mの活性パラメータでフロンティアモデルに食らいつく数学性能は、モデル設計の勝利と言える。「パラメータを増やせば性能が上がる」というスケーリング則への反証として、研究的な価値も高い。
一方で気になる点もある。
まず、91.9%のAIMEスコアはMarkovian RSAという推論時の計算量を増やすテクニックを使った場合の数字だ。通常の推論でどこまで性能が出るかは、公開情報だけでは判断しにくい。数学特化のベンチマークに強い一方、汎用的な会話やクリエイティブなタスクでの実力は未知数だ。
また、Zyphraはスタートアップであり、モデルの継続的なアップデートや長期サポートが保証されているわけではない。研究用途やプロトタイプには最適だが、プロダクション投入にはその点を考慮すべきだろう。
「小さくて賢い」がもたらすもの
ZAYA1-8Bが示したのは、「AIの民主化」の新しい形だ。
大型モデルのAPIに月額数百ドルを払うのではなく、自分のGPU 1枚でフロンティア級の推論能力を手元に置ける。数学やコードの検証エージェント、RAGパイプラインの内部推論ステップ、エッジデバイスでの軽量推論——760Mの活性パラメータという小ささが、これまで「大きなモデルでないと無理」とされていたタスクの前提を変える。
AMDで学習できたという事実も、NVIDIA GPU不足に悩む組織にとっては選択肢の広がりを意味する。
Hugging Faceでモデルをダウンロードできる。Apache 2.0なので、商用利用も改変も自由だ。
関連記事
会話・推論・画像理解・コーディングを1つのモデルに — Mistral Small 4 が実現した「統合MoE」の中身
Mistral Small 4は119B MoEで推論・画像・コードを統合。Apache 2.0で無料。使い所を解説。
DeepSeek V4が「GPT-5.5の97%引き」で殴り込んできた — ProとFlashの使い分けガイド
DeepSeek V4はPro/Flashの2構成。GPT-5.5比97%安でコーディング互角。料金と使い分けを解説。
35Bのモデルが3B分のメモリで動く — Qwen3.6-35B-A3BをMacで試す
Qwen3.6-35B-A3Bは35Bパラメータのうち3Bだけ使う超効率MoEモデル。SWE-bench 73.4%の実力をOllamaでローカル実行する方法、27B Dense版との違いを解説。