Gemma 4徹底解説 — Googleのオープンモデルがついに本気を出した

「オープンモデルは所詮、クローズドの劣化版でしょ」。

そう思っている人がまだ多いのは知っている。実際、1年前ならその認識で間違いなかった。GPT-4やClaudeに匹敵するオープンモデルなんて存在しなかったし、商用利用しようとすればライセンスの制約に頭を抱えることになった。

しかし2026年4月、Googleが出してきたGemma 4は、その前提をかなり本気で揺さぶりにきている。

何が変わったのか

Gemma 4は、GoogleがGeminiの技術を蒸留して作ったオープンウェイトモデルだ。2Bから31Bまで4サイズをラインナップし、テキスト・画像・動画・音声のマルチモーダルに対応する。ここまでなら「まあ、よくある話だな」と思うかもしれない。

決定的に違うのは、ライセンスだ。

GoogleはこれまでGemmaシリーズに独自のライセンスを適用してきた。「有害な用途」に関する曖昧な制限条項があり、商用利用する際には法務に確認を取らないと気持ち悪い代物だった。派生モデルを配布するときもGoogleの条項を引き継がせる必要があった。

Gemma 4では、これがApache 2.0に変わった。業界標準のオープンソースライセンスだ。カスタム条項なし、再配布制限なし、商用利用の制約なし。ファインチューニングした派生モデルも自由にデプロイできる。VentureBeatが「ライセンス変更はベンチマークより重要かもしれない」と書いたのは、あながち大げさではない。

4つのモデルサイズと、その使い分け

Gemma 4のラインナップは以下の通り。

E2B（Effective 2B） — パラメータ総数は5.1Bだが、Per-Layer Embeddings（PLE）という技術で推論時に2.3B分しか活性化しない。量子化すれば1.5GB未満に収まる。スマホ向け。

E4B（Effective 4B） — E2Bの上位版。4.5Bの有効パラメータで、音声入力にも対応。スマホやタブレットでリアルタイム処理できるサイズ感を狙っている。

26B MoE（Mixture of Experts） — 128個のエキスパートのうち、1トークンあたり8+1個だけを活性化する設計。実際に動くのは3.8Bパラメータ分だけ。つまり、31B Denseモデルの97%の品質を、圧倒的に少ない計算量で実現する。LMArenaのテキストリーダーボードで世界6位。

31B Dense — フルパワーモデル。256Kトークンのコンテキストウィンドウを持ち、LMArenaで世界3位。数学やコーディングのベンチマークでは、パラメータ数が13倍あるLlama 4 Maverickにも引けを取らない。

この4段階の設計は、明確にエッジからサーバーまでをカバーする意図で作られている。2Bでスマホ、4Bでタブレット、26Bで個人のGPUマシン、31Bでクラウド。Llama 4がMaverick（400B total）からしかラインナップがなく、事実上サーバー専用なのとは対照的だ。

スマホでAIが動く、という体験

正直に言うと、筆者がGemma 4で一番「おっ」と思ったのはベンチマークの数字ではない。AI Edge Galleryというアプリの存在だ。

GoogleがiOS・Android向けに出しているオープンソースアプリで、Gemma 4のE2BやE4Bモデルをダウンロードすれば、完全オフラインでAIチャットが使える。テキストだけでなく、画像に関する質問、音声の書き起こし・翻訳まで、ネットワーク接続なしで動く。

Android 10以降（RAM 6GB以上推奨）、iOS 16以降（A14 Bionic以上推奨）で動作する。最新のハイエンド端末でなくても、ミドルレンジなら十分動く水準だ。

「それ、ChatGPTアプリでよくない?」という声が聞こえてきそうだが、ポイントはオフライン動作にある。飛行機の中、通信制限がかかったとき、あるいは機密情報を扱うとき。データがデバイスの外に一切出ないという保証は、サーバーサイドのAPIでは原理的に提供できない。

ただし、現時点では体験が「完璧」とは言い難い。モデルのダウンロードに数分かかるし、E2Bだと回答の精度はやはりクラウドモデルに比べて見劣りする。あくまで「スマホローカルAIの最先端がここまで来た」という文脈で捉えるべきだろう。

ベンチマークの話 — 数字が語ること、語らないこと

ベンチマークの数字を並べるのは簡単だが、少しだけ付き合ってほしい。

Gemma 4 31Bは、AIME 2026（数学競技）で89.2%、Codeforces ELO（競技プログラミング）で2150を記録している。MMLU Proは85.2%。これらはすべて、パラメータ数30B前後のオープンモデルとしてはトップクラスだ。

比較対象として名前が挙がるのはLlama 4 MaverickとQwen 3.5 27B。Qwen 3.5はMMLU Pro（86.1%）やGPQA Diamond（85.5%）でGemma 4をわずかに上回る。一方、Llama 4 Maverickは合計400Bパラメータという巨大モデルでありながら、コーディングベンチマークではGemma 4 31Bに劣る場面がある。パラメータ効率の観点では、Gemma 4の圧勝だ。

とはいえ、ベンチマークはベンチマークだ。自分のユースケースでどう動くかは、実際に試さないとわからない。特にマルチモーダル関連は、ベンチマークでは測りにくい品質差がある。

マルチモーダル — できること、できないこと

Gemma 4のマルチモーダル対応は、モデルサイズによって差がある。

全モデル共通でテキストと画像入力に対応。26Bと31Bは動画にも対応するが、上限は60秒・1fpsだ。音声入力はE2BとE4Bのみで、USM系のConformerエンコーダーを内蔵している。ただし音声は最大30秒、音楽ではなく音声（スピーチ）に限定される。

そして出力は全モデルともテキストのみ。画像生成も音声合成もできない。

この「入力はマルチモーダル、出力はテキスト」という設計は、実用上は理にかなっている。「写真を撮って質問する」「会議の音声を書き起こす」「動画の内容を要約する」といったユースケースは、出力がテキストで十分だからだ。ただ、マルチモーダルと聞いて「何でも生成できる」と期待すると肩透かしを食う。

140以上の言語に対応しているのは地味に強い。日本語の品質は筆者がまだ十分に検証できていないが、Geminiの技術を蒸留しているなら、少なくとも壊滅的に悪いということはないだろう。

正直な懸念点

良いことばかり書いてきたので、気になる点も挙げておく。

学習データのカットオフが2025年1月。 リアルタイムの情報はツールを組み合わせない限り取得できない。これはどのLLMにも共通する課題だが、2026年4月リリースのモデルとしてはやや古い。

エッジモデルの品質はまだ発展途上。 E2Bは軽量さと引き換えに、複雑な推論や長文生成では明らかに精度が落ちる。「スマホで動くAI」という体験のインパクトが先行している感は否めない。

Googleのオープン戦略の持続性。 Apache 2.0への移行は歓迎すべきことだが、Googleがこの方針を長期的に維持するかは未知数だ。Googleには過去にプロダクトやAPIを突然廃止してきた歴史がある。Gemma 5でまたライセンスが変わる可能性もゼロではない。

エコシステムの成熟度。 Llama系のモデルは、すでにHugging Face上に膨大なファインチューニング済みモデルやツールチェインが揃っている。Gemma 4はリリースされたばかりで、このエコシステムの厚みではまだ追いついていない。

誰が使うべきか

筆者の考えでは、Gemma 4が最も刺さるのは以下のケースだ。

商用プロダクトにオープンモデルを組み込みたい開発者。Apache 2.0ライセンスのおかげで、法務リスクを最小限に抑えられる。Llama 4のMeta独自ライセンスやQwen 3.5のApache 2.0と比較しても、Google純正のモデルがApache 2.0で使えるのは大きい。

エッジデバイスでAIを動かしたいチーム。E2B/E4Bはスマホ向けに最適化されており、AI Edge Galleryというリファレンス実装まで用意されている。IoTデバイスや組み込みシステムでの活用も視野に入る。

コスト効率を重視する運用。26B MoEは3.8Bパラメータ分の計算量で31Bに近い品質を出す。推論コストを抑えたいプロダクション環境には有力な選択肢だ。

逆に、最高精度を追求するなら、まだクローズドモデルの方が上だ。GPT-4oやClaude 4と正面から比較すると、Gemma 4 31Bでも届かない領域はある。

Googleの本気度

Gemma 4を単体のモデルとして見ると「よくできたオープンモデル」で終わる。でも、Apache 2.0への移行、エッジからサーバーまでの4サイズ展開、AI Edge Galleryアプリの提供、140言語対応。これらを全部セットで見ると、Googleがオープンモデル市場を本気で取りに来ていることがわかる。

MetaのLlama、AlibabaのQwen、そしてGoogleのGemma。オープンモデルの三強時代が始まった。どれを選ぶかは用途次第だが、「とりあえずGemma 4を試してみる」ハードルは、Apache 2.0のおかげでかつてないほど低くなっている。