FlowTune Media

LiteRT-LM — Googleがスマホやラズパイで「ローカルLLM」を動かすフレームワークを公開した

LLMをクラウドに問い合わせる時代は、いつまで続くのだろうか。

Googleが4月8日に公開したLiteRT-LMは、その問いに対するひとつの回答だ。スマートフォン、タブレット、Raspberry Pi、デスクトップ——あらゆるエッジデバイスでLLMを動かすためのオープンソース推論フレームワーク。しかも実験的プロジェクトではない。Chrome、Chromebook Plus、Pixel Watchの本番環境で既に稼働しているインフラを、そのまま公開したものだ。

何ができるのか

LiteRT-LMの核心は、大規模言語モデルをデバイス上で直接実行することにある。クラウドAPIへの通信は不要。インターネット接続がなくても動く。

対応プラットフォームは幅広い。

  • Android / iOS — スマートフォン・タブレット
  • Web — ブラウザ内実行
  • Desktop — macOS、Linux、Windows
  • IoT — Raspberry Piなどの組み込みデバイス

対応モデルもGoogleのGemmaだけではない。Gemma 4、Llama、Phi-4、Qwen——主要なオープンモデルをカバーしている。

特にGemma 4のエッジ向けバリアント(E2B、E4B)への最適化が際立つ。Gemma 4 E2Bは2ビット・4ビット量子化とメモリマップドエンベディングを組み合わせ、1.5GB未満のメモリで動作する。スマートフォンのメモリでも十分に収まるサイズだ。

パフォーマンス

エッジデバイスでの推論速度がどの程度なのか、公式ベンチマークから抜粋する。

デバイス プリフィル(tok/s) デコード(tok/s)
Raspberry Pi 5(CPU) 133 7.6
Qualcomm Dragonwing IQ8(NPU) 3,700 31

Raspberry Piで7.6 tok/sというのは「使えないことはないが快適ではない」レベル。チャットボットとしてはストレスが溜まるだろう。ただし、NPUアクセラレーションが効くデバイスでは31 tok/sまで跳ね上がる。最新のスマートフォンチップセットならこのレベルに近い性能が出るはずだ。

GPUやNPUのハードウェアアクセラレーションに対応しているため、デバイスのスペック次第では実用的な速度が期待できる。

開発者向けの機能

LiteRT-LMは単なる推論ランタイムではなく、エージェント的なワークフローも意識した設計になっている。

ファンクションコーリング: 構造化出力のための制約付きデコーディングをサポートしており、LLMにツール呼び出しをさせるエージェント的な使い方ができる。JSONスキーマに沿った出力を強制する機能もある。

マルチモーダル対応: テキストだけでなく、画像や音声の入力にも対応。Gemma 4のマルチモーダル機能をそのままエッジで利用できる。

CLIツール: litert-lm CLIがLinux、macOS、Raspberry Piで使え、コードを書かずにモデルの動作を試せる。Python バインディングもあり、カスタムパイプラインの構築も可能。

# CLIでGemma 4を試す例
litert-lm chat --model gemma-4-e2b

競合との比較

エッジAI推論の分野には、既にいくつかの選択肢がある。

llama.cpp — ローカルLLM実行のデファクトスタンダード。CPU特化の最適化で幅広いモデルをサポート。コミュニティが大きく、対応ハードウェアも豊富。

MLX(Apple) — Apple Silicon向けの推論フレームワーク。Macでのローカル推論ではトップクラスの性能。ただしAppleデバイス限定。

MetalRT(RunAnywhere) — Apple Siliconに特化した推論エンジン。M4 Maxで658 tok/sを記録。Apple向けではMLXより速いが、クロスプラットフォームには対応しない。

LiteRT-LMの差別化は「クロスプラットフォーム」と「本番実績」の2点。Android、iOS、Web、デスクトップ、IoTをすべてカバーするフレームワークは他にない。そして、GoogleプロダクトでGemini Nanoを動かしている実績は信頼性の裏付けになる。

ただし、llama.cppほどのコミュニティの厚みはまだない。モデル互換性やプラグインのエコシステムでは、llama.cppに軍配が上がる。

正直な評価

LiteRT-LMは「正しいアプローチを正しいタイミングで」出してきたという印象がある。

プライバシー意識の高まりとともに、データをクラウドに送りたくないユースケースは増えている。医療データ、社内文書、個人情報——ローカルで処理できるなら、そうしたい。LiteRT-LMはそのニーズに応える基盤を提供する。

一方で、現時点ではGemma 4 E2Bのような小型モデルに限定される。GPT-5.4やClaude Opus 4.6に匹敵する品質をエッジで期待するのは、まだ現実的ではない。「ローカルで動く範囲のタスクに、ローカルで対応する」という割り切りが必要だ。

とはいえ、Googleがこのインフラをオープンソースとして公開した意味は大きい。Gemma 4の普及を加速させると同時に、「エッジAIのランタイムはGoogleが提供する」というポジションを確立しようとしている。

クラウドLLMの月額課金に疲れた開発者にとっては、検討に値する選択肢だ。

LiteRT-LM(GitHub) | 公式ドキュメント

関連記事