テキスト生成に「画像生成の手法」を持ち込んだら4倍速くなった — GoogleのDiffusionGemma
大規模言語モデル(LLM)のテキスト生成は、基本的に「左から右へ、1トークンずつ」順番に出力する。人間が文章を書くときに近い動きだが、速度面では大きなボトルネックになる。1,000トークンの出力なら、1,000回の推論ステップが必要だ。
Google DeepMindが2026年6月10日に公開したDiffusionGemmaは、この前提をひっくり返す実験的モデルだ。画像生成AIが「ノイズから一枚絵を徐々に鮮明にしていく」のと同じ拡散(Diffusion)の手法を、テキスト生成に応用した。結果として、NVIDIA H100上で毎秒1,000トークン超、従来比で最大4倍の速度を叩き出す。
ランダムなトークンから文章を「浮かび上がらせる」
仕組みをざっくり言うと、こうなる。
従来のLLMは「前のトークンを見て、次のトークンを予測する」を繰り返す。DiffusionGemmaは違う。まず256トークン分の「キャンバス」をランダムなトークンで埋め、そこから段階的にノイズを除去していく。画像生成AIのStable Diffusionがノイズから絵を浮かび上がらせるのと同じ原理だ。
技術的には、Gemma 4の26B MoE(Mixture-of-Experts)アーキテクチャをベースに、推論時にはわずか3.8Bパラメータだけを活性化する。デコーダ部分に双方向アテンションを導入し、キャンバス上の全トークンが互いを参照しながら並列に精錬される。
この「256トークンを一気に生成して磨く」アプローチが、速度の鍵になっている。
速度と品質のトレードオフは正直にある
数字を見ると、速度面の優位は明らかだ。
- H100(FP8): 1,008 tokens/sec
- H200: 1,288 tokens/sec
- GeForce RTX 5090: 700 tokens/sec超
量子化すればVRAM 18GBで動く。ハイエンドの民生GPUでも十分にローカル推論できる水準だ。
一方で、品質面は正直に見る必要がある。Googleの公表ベンチマークでは、DiffusionGemmaは同じパラメータ規模の標準Gemma 4を全般的に下回る。MMLU Proで77.6%、GPQA Diamondで73.2%と悪くはないが、「同じサイズのGemma 4に勝つ」わけではない。
Google自身も「最高品質が必要なら標準Gemma 4を使え」と明言している。これは誠実な姿勢だと思う。
「速さが正義」の用途がある
では何に使うのか。DiffusionGemmaが真価を発揮するのは、品質よりもレイテンシが重要な場面だ。
コード補完・インフィリング — 双方向アテンションの構造的な強みが活きる。前後の文脈を同時に見て穴を埋めるタスクは、自己回帰型よりもDiffusionの方が筋がいい。IDEのインライン補完で「考え中...」の待ち時間が半分以下になれば、開発体験は大きく変わる。
構造化テキストの生成 — JSON、XML、Markdownなど、閉じタグやフォーマットの整合性が求められる生成タスク。双方向に制約を伝播できるため、構造の崩れが起きにくい。
ローカル推論でのインタラクティブ編集 — 文章の一部を選択して「ここだけ書き換えて」と指示するような使い方。256トークン単位で局所的に再生成できるため、全文を再生成する必要がない。
逆に、長い自由記述や複雑な推論チェーンには向かない。そこは従来の自己回帰型モデルの領域だ。
AIコーディングツールの「待ち時間」が消える可能性
DiffusionGemmaが面白いのは、単体の性能よりも、この技術が他のツールに組み込まれたときの可能性だ。
たとえば、CursorやClaude Codeのようなコーディングエージェントは、現在バックエンドにクラウドAPIを使っている。ネットワーク遅延が加わるため、応答に数秒かかることも珍しくない。もしDiffusionGemmaのようなモデルがローカルで動き、コード補完やインライン編集を即座に処理できるなら、「クラウドに投げる必要がないタスクはローカルで、複雑な推論だけクラウドで」というハイブリッド構成が現実味を帯びる。
vLLMが初日からDiffusionGemmaをサポートしている点も見逃せない。既存の推論スタックにそのまま載せられるため、プロダクション投入のハードルは低い。
Apache 2.0ライセンスで公開されており、商用利用も自由。Hugging Faceからウェイトをダウンロードできる。
「自己回帰の次」が見え始めた
正直なところ、DiffusionGemmaは今日の時点で「標準モデルを置き換えるもの」ではない。品質面のギャップがあり、Google自身も「実験的モデル」と位置づけている。
だが、テキスト生成における自己回帰型の支配に初めて具体的な対案を示した点で、このモデルの意義は大きい。画像生成の世界では拡散モデルがGANを完全に置き換えた。テキスト生成でも同じことが起きるかどうかはまだわからないが、「速度と品質を別の軸で最適化する」という選択肢が生まれたこと自体が前進だ。
ローカルでの高速推論が当たり前になれば、クラウドAPI依存からの脱却、プライバシー面での利点、コスト削減など、波及効果は広い。DiffusionGemmaは「新しい最強モデル」ではなく、「テキスト生成の別の進化経路」として見るのが正しい。
関連記事
Google AI Edge Gallery — スマホでGemma 4をオフライン実行する時代が来た
Google AI Edge GalleryでGemma 4をスマホ完全オフライン実行した実機レビュー。AIチャット・画像質問・音声書き起こし・Agent Skillsの4機能、動作環境、プライバシーの強みと課題を解説
LiteRT-LM — Googleがスマホやラズパイで「ローカルLLM」を動かすフレームワークを公開した
GoogleのLiteRT-LMを解説。スマホやRaspberry PiでLLMをローカル実行できるオープンソース推論フレームワークの機能と競合比較がわかる
パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか
Qwen3.6-35B-A3BとGemma 4-31Bを主要ベンチマーク・VRAM消費・ライセンスで比較。用途別の選び方を整理した。