LiteRT-LM — Googleがスマホやラズパイで「ローカルLLM」を動かすフレームワークを公開した
LLMをクラウドに問い合わせる時代は、いつまで続くのだろうか。
Googleが4月8日に公開したLiteRT-LMは、その問いに対するひとつの回答だ。スマートフォン、タブレット、Raspberry Pi、デスクトップ——あらゆるエッジデバイスでLLMを動かすためのオープンソース推論フレームワーク。しかも実験的プロジェクトではない。Chrome、Chromebook Plus、Pixel Watchの本番環境で既に稼働しているインフラを、そのまま公開したものだ。
何ができるのか
LiteRT-LMの核心は、大規模言語モデルをデバイス上で直接実行することにある。クラウドAPIへの通信は不要。インターネット接続がなくても動く。
対応プラットフォームは幅広い。
- Android / iOS — スマートフォン・タブレット
- Web — ブラウザ内実行
- Desktop — macOS、Linux、Windows
- IoT — Raspberry Piなどの組み込みデバイス
対応モデルもGoogleのGemmaだけではない。Gemma 4、Llama、Phi-4、Qwen——主要なオープンモデルをカバーしている。
特にGemma 4のエッジ向けバリアント(E2B、E4B)への最適化が際立つ。Gemma 4 E2Bは2ビット・4ビット量子化とメモリマップドエンベディングを組み合わせ、1.5GB未満のメモリで動作する。スマートフォンのメモリでも十分に収まるサイズだ。
パフォーマンス
エッジデバイスでの推論速度がどの程度なのか、公式ベンチマークから抜粋する。
| デバイス | プリフィル(tok/s) | デコード(tok/s) |
|---|---|---|
| Raspberry Pi 5(CPU) | 133 | 7.6 |
| Qualcomm Dragonwing IQ8(NPU) | 3,700 | 31 |
Raspberry Piで7.6 tok/sというのは「使えないことはないが快適ではない」レベル。チャットボットとしてはストレスが溜まるだろう。ただし、NPUアクセラレーションが効くデバイスでは31 tok/sまで跳ね上がる。最新のスマートフォンチップセットならこのレベルに近い性能が出るはずだ。
GPUやNPUのハードウェアアクセラレーションに対応しているため、デバイスのスペック次第では実用的な速度が期待できる。
開発者向けの機能
LiteRT-LMは単なる推論ランタイムではなく、エージェント的なワークフローも意識した設計になっている。
ファンクションコーリング: 構造化出力のための制約付きデコーディングをサポートしており、LLMにツール呼び出しをさせるエージェント的な使い方ができる。JSONスキーマに沿った出力を強制する機能もある。
マルチモーダル対応: テキストだけでなく、画像や音声の入力にも対応。Gemma 4のマルチモーダル機能をそのままエッジで利用できる。
CLIツール: litert-lm CLIがLinux、macOS、Raspberry Piで使え、コードを書かずにモデルの動作を試せる。Python バインディングもあり、カスタムパイプラインの構築も可能。
# CLIでGemma 4を試す例
litert-lm chat --model gemma-4-e2b
競合との比較
エッジAI推論の分野には、既にいくつかの選択肢がある。
llama.cpp — ローカルLLM実行のデファクトスタンダード。CPU特化の最適化で幅広いモデルをサポート。コミュニティが大きく、対応ハードウェアも豊富。
MLX(Apple) — Apple Silicon向けの推論フレームワーク。Macでのローカル推論ではトップクラスの性能。ただしAppleデバイス限定。
MetalRT(RunAnywhere) — Apple Siliconに特化した推論エンジン。M4 Maxで658 tok/sを記録。Apple向けではMLXより速いが、クロスプラットフォームには対応しない。
LiteRT-LMの差別化は「クロスプラットフォーム」と「本番実績」の2点。Android、iOS、Web、デスクトップ、IoTをすべてカバーするフレームワークは他にない。そして、GoogleプロダクトでGemini Nanoを動かしている実績は信頼性の裏付けになる。
ただし、llama.cppほどのコミュニティの厚みはまだない。モデル互換性やプラグインのエコシステムでは、llama.cppに軍配が上がる。
正直な評価
LiteRT-LMは「正しいアプローチを正しいタイミングで」出してきたという印象がある。
プライバシー意識の高まりとともに、データをクラウドに送りたくないユースケースは増えている。医療データ、社内文書、個人情報——ローカルで処理できるなら、そうしたい。LiteRT-LMはそのニーズに応える基盤を提供する。
一方で、現時点ではGemma 4 E2Bのような小型モデルに限定される。GPT-5.4やClaude Opus 4.6に匹敵する品質をエッジで期待するのは、まだ現実的ではない。「ローカルで動く範囲のタスクに、ローカルで対応する」という割り切りが必要だ。
とはいえ、Googleがこのインフラをオープンソースとして公開した意味は大きい。Gemma 4の普及を加速させると同時に、「エッジAIのランタイムはGoogleが提供する」というポジションを確立しようとしている。
クラウドLLMの月額課金に疲れた開発者にとっては、検討に値する選択肢だ。
関連記事
Gemma 4 — Googleが「無料で使えるAI」に本気を出してきた理由
「オープンモデルは所詮、クローズドの劣化版でしょ」。 そう思っている人がまだ多いのは知っている。実際、1年前ならその認識で間違いなかった。GPT-4やClaudeに匹敵するオープンモデルなんて存在しなかったし、商用利用しようとすればライセンスの制約に頭を抱えることになった。 しかし2026年4月、Googleが出
Google AI Edge Eloquent — プレスリリースなし、広告なし、それでも「これは使える」と思った理由
Googleが新しいアプリをひっそりとリリースした。プレスリリースも、Googleブログの告知も、CEOのXへの投稿もなし。App Storeに静かに現れた「Google AI Edge Eloquent(https://apps.apple.com/us/app/google-ai-edge-eloquent/id
OpenClawは本当に安全か?GitHub35万スターのAIアシスタントが抱える光と影
GitHub 351,000スター。フォーク数71,000超。2025年11月の公開からわずか数ヶ月で、オープンソースAIプロジェクト史上最速クラスの成長を遂げたOpenClaw。WhatsApp、Telegram、Slack、iMessage、Discordなど50以上のメッセージングプラットフォームに接続し、完全