スマホの中のAIが4倍速くなる日 — Androidに降りてきたGemma 4とGemini Nano 4

スマホの中で動くAIは、今までずっと「オマケ」だった。

Webに問い合わせればGPTやGeminiがほぼ何でも答えてくれる時代に、わざわざオンデバイスで動く小さなモデルを使う理由は、正直そんなに多くなかった。翻訳、音声認識、写真の分類——そういう「ネットに出したくない」処理だけが、こぢんまりとオンデバイスAIの居場所だった。

その前提が、4月頭のGoogleの発表で少し変わったかもしれない。

Androidチームは、Android Developers BlogでGemini Nano 4のプレビューを公開した。ベースモデルは同じ4月に発表されたオープンモデル Gemma 4。つまり、手元のAndroidで動くNano 4と、Hugging Faceにも公開されているGemma 4が、実質的に同じ血を引いた兄弟になる。

数字を先に置いておく

Googleが出してきた数字はこうだ。

推論速度: 前世代 Gemini Nano 3 比で 最大4倍
バッテリー消費: 最大60%削減
対応言語: 140言語以上 をネイティブサポート
マルチモーダル: テキスト・画像・音声を同じモデルで処理

60% のバッテリー削減は正直盛ってるだろうと身構えたが、Android Authorityが実機ベンチで確認した記事を読む限り、同じタスク（要約・翻訳・コード補完）を回した場合の消費電力は確かにNano 3比で半分以下に落ちている。モデルサイズの効率化と、Tensorチップへの最適化が両輪で効いているらしい。

これは「スマホで動く便利機能」の話ではなく、常時オンのAIアシスタントをバッテリーを気にせず回せるという話だ。後述するが、ここがこのアップデートの本質である。

E2B と E4B ——「Fast」と「Full」の2本立て

Gemini Nano 4 は単一モデルではなく、2種類用意されている。

Gemini Nano 4 Fast — ベースは Gemma 4 E2B。応答速度重視。E4B 比で3倍速い
Gemini Nano 4 Full — ベースは Gemma 4 E4B。品質重視。複雑な推論や長めの応答向き

E2B / E4B はGemma 4で導入された「Effective Parameter」表記で、従来のパラメータ数とは別の概念だ。モデルの中には一部のレイヤーが動かなくても品質が保たれる領域があり、実行時にそれを省略することで「実効パラメータ」を減らす。見かけのモデルサイズより実動作が軽い、というトリックである。

開発者視点で面白いのは、同じPrompt APIのインターフェースで両方のモデルを切り替えられることだ。軽いタスクはFastで、重い推論だけFullで、という切り分けをコード1行でできる。従来のNano 3ではここが固定だったので、アプリ側で「この処理はオンデバイスでいいのか、Cloud に投げるのか」を毎回判断する必要があったが、Nano 4では同じ土俵の中で速度と品質をトレードオフできるようになった。

AICore Developer Preview で今日から触れる

手元で確認したい開発者は、Android AICore Developer Preview経由でNano 4 のプレビュー版を呼べる。対応Pixel/Galaxy シリーズ（今のところ限定的）にサイドロードすれば、既存の Prompt API から追加パラメータを1つ変えるだけで動く。

もう一つの重要なポイントは、Gemma 4向けに書いたコードがそのままNano 4対応デバイスで動くこと。Hugging FaceからダウンロードしてPCで検証した推論パイプラインを、そのままAndroidに持っていける。「サーバー側で試した→スマホで動かす」の書き直しが不要になるのは、エッジAI開発のコストを想像以上に下げる。

現時点でプレビューに乗っている機能と、「これから来る」予告機能は以下の通り。

機能	現状
テキスト生成（Chat / Instruct）	✅ 提供中
画像・音声入力	✅ 提供中
Structured Output（JSON Mode 相当）	🚧 今後
Tool Calling（Function Calling）	🚧 今後
System Prompts	🚧 今後
Thinking Mode（推論トレース可視化）	🚧 今後

未実装項目が多いので、商用アプリでのフル活用は年後半の正式リリース待ちになる。ただ、Tool Calling が来る前提で設計を始めておける段階には入った。

ここから何が実現できるのか

機能表を見ると淡々としているが、組み合わせで考えると結構面白い。

1. 完全オフラインの多言語リアルタイム翻訳アシスタント。140言語対応でバッテリー60%削減、ということは、機内モードでも丸一日動き続けるリアルタイム翻訳アプリが現実になる。海外旅行時のオフライン翻訳は今まで「辞書アプリの延長」だったが、Nano 4 Fast なら自然な会話文のまま通訳できる。筆者はアジア圏を行き来する機会が多いので、これは普通に欲しい。

2. 個人データを一切クラウドに出さないAIアシスタント。Tool Callingが入った瞬間、Calendar/Contacts/Location と連携するアシスタントがスマホ内で完結できる。Apple IntelligenceやGemini with personal contextと同じ思想だが、GoogleはオープンモデルのGemma 4を起点にしているため、同じ仕組みを自社アプリに組み込みたい企業には実装のハードルがぐっと下がる。

3. オンデバイスRAGベースの業務アプリ。例えば、建設現場の職人が現場で撮った写真と音声メモを、クラウドに一切送らず手元のスマホだけで検索・要約するアプリ。機密データの外出を気にする業界では、これまで「クラウドAI使えないから諦めていた」が積み上がっている。Nano 4 の品質が実用域に入ったことで、クラウドAIの代替ではなく「クラウドAIが使えない場所」のプラットフォームとして現実的な選択肢になる。

4. 年後半以降、Thinking Mode が開放された時の化学反応。これが一番興味深い。Thinking Mode が小型モデルで使えると、「手元で数分かけて考えてから答える」アプリが作れる。非リアルタイム用途、例えば就寝中に溜めた翻訳タスクを朝までに品質重視で処理する、みたいな使い方が視野に入る。Nano 4 は電力効率が高いので、長時間走らせても焼けない。

もちろん、これら全部がすぐに実現するわけではない。Tool CallingとStructured Outputが揃うまでは、「高性能な文字生成AI」の域を出ない。ただ、部品が揃い始めた瞬間にアプリ側の設計が一気に動き出すのは、これまでのAndroid AI の歴史が繰り返してきたパターンでもある。

冷静に見て気になる点

ポジティブな話ばかりでもない。

対応デバイスの狭さ。AICore Developer Previewは現時点でも限定的で、Nano 4 対応デバイスが「今年後半」にならないと本格展開されない。Pixelの新世代とGalaxy の一部だけ、という構図は当分続くとみていい。Android エコシステム全体がNano 4 前提になるのは2027年までずれ込む可能性が高い。

Gemma 4 E4B のライセンス。Gemma シリーズはApache 2.0 系のライセンスだが、Gemma 4 では一部の派生モデルにGoogleの Gemma 追加規約が残る。商用アプリに組み込む場合、「Android に内蔵された Nano 4 を使う分には問題ないが、Gemma 4 自体を自社サーバーにホストしてAPIとして提供する」ような用途では別途確認が必要になる。この辺はGemma 4の一般発表記事と合わせて読むと整理しやすい。

Thinking Mode のメモリ要求。Nano 4 は軽量とはいえ、Thinking Modeを有効にすると一時的にワーキングメモリを大量に使う。RAMが6GB以下のミドルレンジ端末では、おそらく Thinking Mode は無効化される形になるだろう。オンデバイスAIの「全員に届く」までの道のりはまだ長い。

競合との比較。Apple Intelligence は同じ方向で既にエッジモデルを商品化しており、Qualcomm も Snapdragon 8 Gen 4 向けに独自のオンデバイスLLMを推している。Googleの強みは「Gemma / Geminiというクラウドとの連続性」と「オープンな開発者体験」の2点に尽きる。ここを開発者がちゃんと評価するかどうかは、秋以降のアプリの出方次第だ。

正直に言うと、筆者は今回の発表を「派手な数字の割に地味な話」だと最初は思った。しかし Prompt APIで gemini-nano-4-fast と1行書くだけで、バッテリーを気にせずフル1日AIを回せる、という状態に近づいているのは、アプリ開発の前提条件を静かに書き換えていると感じる。オンデバイスAIが「オマケ」から「主軸」に置き換わる分岐点が、Nano 4 の正式リリース時期に来るかもしれない。

年後半の対応デバイス展開を見るまでは楽観しすぎない方がいい。ただ、AICore Developer Previewに登録できる環境を持っている人は、早めに触っておいた方がいい領域ではある。

参考:

スマホの中のAIが4倍速くなる日 — Androidに降りてきたGemma 4とGemini Nano 4

数字を先に置いておく

E2B と E4B ——「Fast」と「Full」の2本立て

AICore Developer Preview で今日から触れる

ここから何が実現できるのか

冷静に見て気になる点

関連記事

Google AI Edge Gallery — スマホでGemma 4をオフライン実行する時代が来た

LiteRT-LM — Googleがスマホやラズパイで「ローカルLLM」を動かすフレームワークを公開した

Sundar Pichaiが「来月には」と言ったあのモデル — Gemini 3.5 Proが6月に来る