スマホの中のAIが4倍速くなる日 — Androidに降りてきたGemma 4とGemini Nano 4
スマホの中で動くAIは、今までずっと「オマケ」だった。
Webに問い合わせればGPTやGeminiがほぼ何でも答えてくれる時代に、わざわざオンデバイスで動く小さなモデルを使う理由は、正直そんなに多くなかった。翻訳、音声認識、写真の分類——そういう「ネットに出したくない」処理だけが、こぢんまりとオンデバイスAIの居場所だった。
その前提が、4月頭のGoogleの発表で少し変わったかもしれない。
Androidチームは、Android Developers BlogでGemini Nano 4のプレビューを公開した。ベースモデルは同じ4月に発表されたオープンモデル Gemma 4。つまり、手元のAndroidで動くNano 4と、Hugging Faceにも公開されているGemma 4が、実質的に同じ血を引いた兄弟になる。
数字を先に置いておく
Googleが出してきた数字はこうだ。
- 推論速度: 前世代 Gemini Nano 3 比で 最大4倍
- バッテリー消費: 最大60%削減
- 対応言語: 140言語以上 をネイティブサポート
- マルチモーダル: テキスト・画像・音声を同じモデルで処理
60% のバッテリー削減は正直盛ってるだろうと身構えたが、Android Authorityが実機ベンチで確認した記事を読む限り、同じタスク(要約・翻訳・コード補完)を回した場合の消費電力は確かにNano 3比で半分以下に落ちている。モデルサイズの効率化と、Tensorチップへの最適化が両輪で効いているらしい。
これは「スマホで動く便利機能」の話ではなく、常時オンのAIアシスタントをバッテリーを気にせず回せるという話だ。後述するが、ここがこのアップデートの本質である。
E2B と E4B ——「Fast」と「Full」の2本立て
Gemini Nano 4 は単一モデルではなく、2種類用意されている。
- Gemini Nano 4 Fast — ベースは Gemma 4 E2B。応答速度重視。E4B 比で3倍速い
- Gemini Nano 4 Full — ベースは Gemma 4 E4B。品質重視。複雑な推論や長めの応答向き
E2B / E4B はGemma 4で導入された「Effective Parameter」表記で、従来の パラメータ数とは別の概念だ。モデルの中には一部のレイヤーが動かなくても品質が保たれる領域があり、実行時にそれを省略することで「実効パラメータ」を減らす。見かけのモデルサイズより実動作が軽い、というトリックである。
開発者視点で面白いのは、同じPrompt APIのインターフェースで両方のモデルを切り替えられることだ。軽いタスクはFastで、重い推論だけFullで、という切り分けをコード1行でできる。従来のNano 3ではここが固定だったので、アプリ側で「この処理はオンデバイスでいいのか、Cloud に投げるのか」を毎回判断する必要があったが、Nano 4では同じ土俵の中で速度と品質をトレードオフできるようになった。
AICore Developer Preview で今日から触れる
手元で確認したい開発者は、Android AICore Developer Preview経由でNano 4 のプレビュー版を呼べる。対応Pixel/Galaxy シリーズ(今のところ限定的)にサイドロードすれば、既存の Prompt API から追加パラメータを1つ変えるだけで動く。
もう一つの重要なポイントは、Gemma 4向けに書いたコードがそのままNano 4対応デバイスで動くこと。Hugging FaceからダウンロードしてPCで検証した推論パイプラインを、そのままAndroidに持っていける。「サーバー側で試した→スマホで動かす」の書き直しが不要になるのは、エッジAI開発のコストを想像以上に下げる。
現時点でプレビューに乗っている機能と、「これから来る」予告機能は以下の通り。
| 機能 | 現状 |
|---|---|
| テキスト生成(Chat / Instruct) | ✅ 提供中 |
| 画像・音声入力 | ✅ 提供中 |
| Structured Output(JSON Mode 相当) | 🚧 今後 |
| Tool Calling(Function Calling) | 🚧 今後 |
| System Prompts | 🚧 今後 |
| Thinking Mode(推論トレース可視化) | 🚧 今後 |
未実装項目が多いので、商用アプリでのフル活用は年後半の正式リリース待ちになる。ただ、Tool Calling が来る前提で設計を始めておける段階には入った。
ここから何が実現できるのか
機能表を見ると淡々としているが、組み合わせで考えると結構面白い。
1. 完全オフラインの多言語リアルタイム翻訳アシスタント。140言語対応でバッテリー60%削減、ということは、機内モードでも丸一日動き続けるリアルタイム翻訳アプリが現実になる。海外旅行時のオフライン翻訳は今まで「辞書アプリの延長」だったが、Nano 4 Fast なら自然な会話文のまま通訳できる。筆者はアジア圏を行き来する機会が多いので、これは普通に欲しい。
2. 個人データを一切クラウドに出さないAIアシスタント。Tool Callingが入った瞬間、Calendar/Contacts/Location と連携するアシスタントがスマホ内で完結できる。Apple IntelligenceやGemini with personal contextと同じ思想だが、GoogleはオープンモデルのGemma 4を起点にしているため、同じ仕組みを自社アプリに組み込みたい企業には実装のハードルがぐっと下がる。
3. オンデバイスRAGベースの業務アプリ。例えば、建設現場の職人が現場で撮った写真と音声メモを、クラウドに一切送らず手元のスマホだけで検索・要約するアプリ。機密データの外出を気にする業界では、これまで「クラウドAI使えないから諦めていた」が積み上がっている。Nano 4 の品質が実用域に入ったことで、クラウドAIの代替ではなく「クラウドAIが使えない場所」のプラットフォームとして現実的な選択肢になる。
4. 年後半以降、Thinking Mode が開放された時の化学反応。これが一番興味深い。Thinking Mode が小型モデルで使えると、「手元で数分かけて考えてから答える」アプリが作れる。非リアルタイム用途、例えば就寝中に溜めた翻訳タスクを朝までに品質重視で処理する、みたいな使い方が視野に入る。Nano 4 は電力効率が高いので、長時間走らせても焼けない。
もちろん、これら全部がすぐに実現するわけではない。Tool CallingとStructured Outputが揃うまでは、「高性能な文字生成AI」の域を出ない。ただ、部品が揃い始めた瞬間にアプリ側の設計が一気に動き出すのは、これまでのAndroid AI の歴史が繰り返してきたパターンでもある。
冷静に見て気になる点
ポジティブな話ばかりでもない。
対応デバイスの狭さ。AICore Developer Previewは現時点でも限定的で、Nano 4 対応デバイスが「今年後半」にならないと本格展開されない。Pixelの新世代とGalaxy の一部だけ、という構図は当分続くとみていい。Android エコシステム全体がNano 4 前提になるのは2027年までずれ込む可能性が高い。
Gemma 4 E4B のライセンス。Gemma シリーズはApache 2.0 系のライセンスだが、Gemma 4 では一部の派生モデルにGoogleの Gemma 追加規約が残る。商用アプリに組み込む場合、「Android に内蔵された Nano 4 を使う分には問題ないが、Gemma 4 自体を自社サーバーにホストしてAPIとして提供する」ような用途では別途確認が必要になる。この辺はGemma 4の一般発表記事と合わせて読むと整理しやすい。
Thinking Mode のメモリ要求。Nano 4 は軽量とはいえ、Thinking Modeを有効にすると一時的にワーキングメモリを大量に使う。RAMが6GB以下のミドルレンジ端末では、おそらく Thinking Mode は無効化される形になるだろう。オンデバイスAIの「全員に届く」までの道のりはまだ長い。
競合との比較。Apple Intelligence は同じ方向で既にエッジモデルを商品化しており、Qualcomm も Snapdragon 8 Gen 4 向けに独自のオンデバイスLLMを推している。Googleの強みは「Gemma / Geminiというクラウドとの連続性」と「オープンな開発者体験」の2点に尽きる。ここを開発者がちゃんと評価するかどうかは、秋以降のアプリの出方次第だ。
正直に言うと、筆者は今回の発表を「派手な数字の割に地味な話」だと最初は思った。しかし Prompt APIで gemini-nano-4-fast と1行書くだけで、バッテリーを気にせずフル1日AIを回せる、という状態に近づいているのは、アプリ開発の前提条件を静かに書き換えていると感じる。オンデバイスAIが「オマケ」から「主軸」に置き換わる分岐点が、Nano 4 の正式リリース時期に来るかもしれない。
年後半の対応デバイス展開を見るまでは楽観しすぎない方がいい。ただ、AICore Developer Previewに登録できる環境を持っている人は、早めに触っておいた方がいい領域ではある。
参考:
関連記事
Google AI Edge Gallery — スマホでGemma 4をオフライン実行する時代が来た
Google AI Edge GalleryでGemma 4をスマホ完全オフライン実行した実機レビュー。AIチャット・画像質問・音声書き起こし・Agent Skillsの4機能、動作環境、プライバシーの強みと課題を解説
LiteRT-LM — Googleがスマホやラズパイで「ローカルLLM」を動かすフレームワークを公開した
GoogleのLiteRT-LMを解説。スマホやRaspberry PiでLLMをローカル実行できるオープンソース推論フレームワークの機能と競合比較がわかる
パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか
Qwen3.6-35B-A3BとGemma 4-31Bを主要ベンチマーク・VRAM消費・ライセンスで比較。用途別の選び方を整理した。