活性パラメータ760Mで数学オリンピック91.9% — 「小さいのに賢い」AIモデルの設計思想

パラメータ数が大きいほど賢い——長らくAIモデルの常識だったこの前提に、真正面から挑むモデルが出てきた。

Zyphraが2026年5月にリリースしたZAYA1-8Bは、総パラメータ8.4B（84億）のMixture-of-Experts（MoE）モデルだ。しかし、1トークンの処理に使われる活性パラメータはわずか760M（7.6億）。それでいて、数学オリンピックベンチマーク（AIME'25）で91.9%をマークし、Claude 4.5 SonnetやGemini 2.5 Proといったフロンティアモデルに匹敵するスコアを叩き出した。

Apache 2.0ライセンスで公開されている。

760Mで何ができるのか

具体的な数字を見てみよう。

AIME'25（数学オリンピック級の問題セット）で91.9%。ほとんどのフロンティアモデルが90%前後で頭打ちになるベンチマークで、それを上回っている。さらに、推論時間を伸ばすMarkovian RSAという手法を組み合わせると、APEX-shortlistベンチマークでDeepSeek-V3.2やGPT-OSS-120Bを超えるスコアも報告されている。

コーディングや一般的な推論タスクでも、Llama-3-8B、Qwen3-4B、Gemma3-12Bといった同サイズ帯のオープンモデルを上回るか同等の性能を示す。

活性パラメータが760Mしかないということは、推論時のメモリ消費と計算コストが劇的に小さい。8Bモデルの精度を、1Bモデル並みのリソースで得られる計算になる。

なぜ「小さくて賢い」が可能なのか

MoEアーキテクチャ自体は珍しくない。DeepSeek-V4もQwen 3.6もMoEだ。ZAYA1-8Bが特異なのは、MoE++と呼ぶ独自アーキテクチャで極端に活性パラメータを削っている点にある。

通常のMoEモデルでは活性パラメータが総パラメータの10〜20%程度だが、ZAYA1-8Bは約9%まで絞り込んでいる。それを支えるのがCompressed Convolutional Attention（CCA）という仕組みで、通常のアテンション機構をたたみ込み（畳み込み）で代替し、KVキャッシュを8分の1に圧縮する。メモリ効率が良いので、同じハードウェアでより長いコンテキストを処理できる。

もう一つ、Lightweight Residual Scalingという手法でエキスパート間の残差接続を最適化し、パラメータの「無駄遣い」を減らしている。

NVIDIAではなくAMDで学習した意味

ZAYA1-8Bの学習には1,024基のAMD Instinct MI300X GPU（各192GB HBM）が使われた。NVIDIAのH100やH200ではなく、AMDだ。

これは単なるスポンサーの都合ではない。MI300Xの192GBメモリは、H100の80GBの2.4倍。MoEモデルでは全エキスパートをメモリに載せる必要があるため、大容量メモリが学習効率に直結する。MI300Xなら、コストのかかるテンソル分割やエキスパート分割を避けられる。

ZyphraはAMDのPensando Pollaraネットワーキングも活用しており、分散I/Oで従来比10倍のモデル保存速度を達成したと報告している。

AI学習インフラがNVIDIA一強のなか、AMDハードウェアでフロンティア級の性能を出せることを実証した点は、業界構造として無視できない。

ローカルで動かせるか

760Mの活性パラメータなら、理論的にはかなり控えめなハードウェアでも推論が可能だ。

ただし、MoEモデルの場合は全エキスパートの重みをメモリ上に持つ必要がある。ZAYA1-8Bは総パラメータ8.4Bなので、FP16で約17GB、4bit量子化でも5GB程度のVRAMが必要になる。RTX 4060（8GB VRAM）ならギリギリ動く可能性があるが、快適に使うならRTX 4070以上が現実的だろう。

Ollamaやllama.cppでの動作は確認されていないが、Apache 2.0ライセンスでHugging Faceに公開されているため、技術的に対応できる可能性は高い。コミュニティの量子化モデルが出るかどうかが、ローカルAIユーザーにとっての鍵になる。

正直な評価

すごい点は明確だ。760Mの活性パラメータでフロンティアモデルに食らいつく数学性能は、モデル設計の勝利と言える。「パラメータを増やせば性能が上がる」というスケーリング則への反証として、研究的な価値も高い。

一方で気になる点もある。

まず、91.9%のAIMEスコアはMarkovian RSAという推論時の計算量を増やすテクニックを使った場合の数字だ。通常の推論でどこまで性能が出るかは、公開情報だけでは判断しにくい。数学特化のベンチマークに強い一方、汎用的な会話やクリエイティブなタスクでの実力は未知数だ。

また、Zyphraはスタートアップであり、モデルの継続的なアップデートや長期サポートが保証されているわけではない。研究用途やプロトタイプには最適だが、プロダクション投入にはその点を考慮すべきだろう。

「小さくて賢い」がもたらすもの

ZAYA1-8Bが示したのは、「AIの民主化」の新しい形だ。

大型モデルのAPIに月額数百ドルを払うのではなく、自分のGPU 1枚でフロンティア級の推論能力を手元に置ける。数学やコードの検証エージェント、RAGパイプラインの内部推論ステップ、エッジデバイスでの軽量推論——760Mの活性パラメータという小ささが、これまで「大きなモデルでないと無理」とされていたタスクの前提を変える。

AMDで学習できたという事実も、NVIDIA GPU不足に悩む組織にとっては選択肢の広がりを意味する。

Hugging Faceでモデルをダウンロードできる。Apache 2.0なので、商用利用も改変も自由だ。

活性パラメータ760Mで数学オリンピック91.9% — 「小さいのに賢い」AIモデルの設計思想

760Mで何ができるのか

なぜ「小さくて賢い」が可能なのか

NVIDIAではなくAMDで学習した意味

ローカルで動かせるか

正直な評価

「小さくて賢い」がもたらすもの

関連記事

会話・推論・画像理解・コーディングを1つのモデルに — Mistral Small 4 が実現した「統合MoE」の中身

社員14人、ユーザー890万人 — ローカルLLMの定番Ollamaが約95億円を調達

DeepSeek V4が「GPT-5.5の97%引き」で殴り込んできた — ProとFlashの使い分けガイド