AMD PACE — GPU不足時代、EPYCで380トークン/秒が出るという静かな一撃
NVIDIAのH100もH200も、依然として数ヶ月待ちが普通の世界だ。GPUが手に入らない、手に入っても電力と冷却のコストが重い、というインフラ担当者の愚痴はもう聞き慣れた。そこにAMDが小さな、しかし実務的に無視しづらい一手を置いてきた。
4月8日、AMDは「PACE(Platform Aware Compute Engine)」を公開した。一言で言えば5th Gen EPYC(Zen 5)のCPUでLLM推論をフルスロットルに回すためのサービング基盤だ。そしてこれが、ベンチマーク上でvLLMを明確に上回る数字を叩き出している。
何がどれくらい速いのか
一番刺さるのは、数字だ。AMDが公開した、EPYC 9755を使ったLlama 3 8Bの比較結果を並べるとこうなる。
| モード | vLLM 0.17との比較(幾何平均) |
|---|---|
| 自動回帰デコード | 1.60倍 |
| スペキュラティブデコード(batch size 1) | 最大4.45倍 |
| サービングモード(エンド・トゥ・エンド) | 最大2.06倍 |
PARD(Parallel Draft Models)と組み合わせた構成では、Llama 3.1 8Bで約380トークン/秒を単一のEPYCノードで出せる。batch size 1、つまり1ユーザーが独占する状況で、人間の読解速度をはるかに超える出力が返ってくる。CPUだけで、だ。
これは地味に衝撃的な数字で、「GPUを持たないエンタープライズにはCPU推論は現実的じゃない」という従来の共通認識を揺さぶってくる。もちろん70Bクラス以上のモデルや巨大なバッチサイズでは依然としてGPUに分があるけれど、8〜13Bクラスの実用ワークロードに関しては、EPYC+PACEで十分まかなえる射程に入ってきた。
PACEの仕組みをざっくり
技術的に何をしているのか、要点だけ整理する。
統合スケジューラ: LLM推論にはprefill(プロンプトを一括で処理する段階)とdecode(トークンを1つずつ出す段階)という、性質の違う2フェーズがある。多くの既存エンジンはこの2つを時間的に分離して走らせるが、PACEは両者をワークロードパーティショニングで同時にCPUコア上に載せる。CPUのキャッシュ階層とSIMDユニットの使い方を、モデルの挙動に合わせて動的に調整していく発想だ。
連続バッチ/バッチデコード: 従来の自動回帰モードに加え、バッチをかき集めて処理する運用モードを持つ。これがサービングモードでのスループット改善(2倍強)に直結している。
スペキュラティブデコード + PARD: 小さなドラフトモデルが先に「次のトークン候補」を提案し、本体モデルが検証する方式。AMDは並列ドラフト(Parallel Draft Models)を組み合わせることで、CPU環境でのメモリ帯域と演算量のバランスを取り直している。スペキュラティブデコードがGPUで効きづらかった理由は「本体とドラフトの同期オーバーヘッド」にあったが、PACEはCPUの特性に合わせてそこを設計し直した格好だ。
オープンソース: GitHub(amd/AMD-PACE)で公開されている。ライセンスとドキュメントを読んだ上で、自社インフラに組み込める。この点は大事で、クローズドなインフラ最適化だと「ベンダーロックイン覚悟でないと試せない」という壁があった。
誰にとって意味があるのか
PACEが効いてくるのは、次のような組織だろう。
オンプレでAIを回したいエンタープライズ: 金融、医療、法務、製造業の一部。データを社外に出せない事情を持つ業界は、GPUクラスタを自前で組むよりもEPYCサーバーにLLM推論を載せるほうが調達も運用もずっと楽だ。Mistral Small 4やLlama 3.1 8B、Gemma 4といった8〜14Bクラスのオープンモデルが実用域に入っていることもあり、「CPUで十分」な案件は着実に増えている。
開発環境・CI用途: コードレビュー、静的解析、内部ドキュメント検索のような継続的に走るタスクは、ピーク性能よりもコスト効率と可用性が重要になる。GPU一枚を遊ばせておくよりも、既存のEPYCサーバーの空きコアにPACEを載せて回す方が、総所有コストは下がる。
マルチリージョンのエッジ推論: 巨大GPUクラスタを各リージョンに置くのは不経済。AWS・GCP・Azureのリージョンを問わず、EPYCインスタンスはほぼどこでも借りられる。地理的な分散を優先する場面では、PACE + EPYCの組み合わせが現実解になる可能性がある。
個人開発者にとっては正直、直接の恩恵は薄い。自宅のサーバーにEPYC 9755を載せている人はそう多くない。ただ、PACEがOSSで公開されたことで、将来的にコンシューマ向けZen 5 CPU(Ryzen 9000シリーズ)向けの派生や、より軽量な実装が出てくる可能性は残されている。
vLLMとの距離感
ここは誤解されやすいので整理しておく。PACEはvLLMの代替ではなく、vLLMがあまり得意でなかったCPU推論領域を埋めるポジションだ。GPUクラスタで巨大なバッチを回すなら、依然としてvLLM(あるいはTGI、SGLang)が第一選択になる。PACEの数字を見て「vLLMは時代遅れ」と解釈するのは早計だ。
比較条件を冷静に見ると、AMDのベンチマークはCPU vs CPUでの勝負ではなく、EPYC 9755上でのvLLMの挙動を基準点にして、PACEがどれだけ引き上げたかを示している。同じハードでvLLMを使うよりPACEのほうが速い、という主張だ。
また、ベンチマークで使われたLlama 3 8Bはモデルサイズとしては扱いやすい部類で、70B以上でどうなるかは別の検証が要る。大きなモデルはメモリ帯域の壁に当たりやすく、CPU推論は不利になる傾向がある。ここは過剰な期待を持ち込まないほうがいい。
懸念と限界
フェアに書いておく。
ハードウェア縛り: PACEの真価は5th Gen EPYC(Zen 5)の微細な命令セットに最適化されている部分にある。古いEPYCやIntel Xeonでも動くかもしれないが、同じ速度は出ない可能性が高い。つまり、既存資産のEPYC 4thや3rd Genを活用するという用途には直接効かない。
ドキュメントの厚み: 公開されたばかりなので、プロダクション投入に必要なデプロイガイド、障害対応、観測性のベストプラクティスが十分に揃っていない。先行導入するチームは、GitHubのIssueを追いかけながら試行錯誤することになる。
NVIDIAとの比較情報の不足: AMDは「vLLMに対するスピードアップ」を見せているが、同価格帯のNVIDIA GPU(A10、L4、RTX 6000 Ada等)を使ったセットアップとの直接比較は提示していない。TCO(総所有コスト)の議論には、電力消費、冷却、ラック密度、ライセンスなど複数軸が絡む。数字の裏取りには時間がかかる。
何が変わりうるか
PACEそのものがAIインフラの景色を一夜で変えることはない。だが、「GPUでなくてもLLMは実用速度で回る」という事実が数字で示されたことは、インフラ選定の会議室に持ち込める新しい根拠になる。
これまで「NVIDIA一択」と言われ続けてきた領域で、AMDはここ数年地道にソフトウェアスタック(ROCm、OptimumAMD)を整えてきた。PACEはその延長線上にある、CPU側からの補強策だ。GPUを握りすぎたNVIDIAに対して、「実は必要な案件ぜんぶGPUじゃない」と静かに示してみせる動き。派手さはないが、エンタープライズAIの経済性を着実に揺さぶる種類の発表だと思う。
H100の入荷を待っているプロジェクトがあれば、待つ間にEPYCサーバー1台でPoCを走らせる選択肢が、現実味を帯びてきた。少なくとも、そういう会話ができる状態にAMDは引き上げてきた。
関連記事
Claude Sonnet 5 — SWE-bench 92%、Opus 4.6を「Sonnet価格」で超えたAnthropicの一手
Claude Sonnet 5がSWE-bench Verified 92.4%を記録し、Opus 4.6を12ポイント上回った。据え置き価格・2Mコンテキスト・強化されたadaptive thinkingを実機目線で整理する。
HappyHorse-1.0 — 正体不明のまま首位になった動画AIが、Alibabaだった
Alibabaが自社開発を認めた15BのオープンソースAI動画モデルHappyHorse-1.0。Seedance 2.0を60点差で突き放した実力と、Apache 2.0で公開された意味を整理する。
GPT-6 公開 — 価格据え置きで200万トークン、そしてSoraを飲み込んだ
OpenAIが2026年4月10日に公開したGPT-6を解説。2Mコンテキスト、System-1/2の二層推論、ネイティブ動画生成、価格据え置きの戦略、GPT-5.4やClaude Opus 4.6との差をまとめる。