Gemini 3.1 Flash Lite — 100万トークン処理で「1ドル以下」の衝撃

LLMの価格競争が、ついに「安いか高いか」ではなく「どこまで安くできるか」のフェーズに入った。

3月3日、GoogleがプレビューリリースしたGemini 3.1 Flash Liteは、入力$0.25/100万トークン、出力$1.50/100万トークンという価格設定で登場した。Gemini 3.1 Proの8分の1。Batch APIを使えばさらに半額になり、入力$0.125、出力$0.75まで下がる。100万トークンの入力処理が約19円。これはもう「気にしなくていい」レベルの金額である。

GPT-5.4 nanoやClaude Haikuといったコスト重視モデルと真正面から競合する価格帯だが、Flash Liteが面白いのは「安いだけ」では終わらないところだ。

速度と性能のバランス

Flash Liteの最大の売りは速度にある。Gemini 2.5 Flashと比較して、Time to First Token（最初のトークンが返ってくるまでの時間）が2.5倍速い。出力速度は363トークン/秒で、これも2.5 Flashから45%の向上だ。APIを叩いてから体感できるレスポンスの速さは、コスト以上にユーザー体験を左右する。

コンテキストウィンドウは100万トークン。テキスト、画像、音声、動画の入力に対応するマルチモーダルモデルで、この価格帯としては異例のスペックだ。

ベンチマークも見ておこう。GPQA Diamondで86.9%、MMMU Proで76.8%、Arena Elo 1432。率直に言って、「Lite」の名前からイメージする水準をかなり超えている。1年前のフラッグシップモデルと比較しても見劣りしない数字だ。

Thinking Levels — 推論の深さを手動で制御する

Gemini 3.1 Flash Liteには「Thinking Levels」という機能がある。minimal、low、medium、highの4段階で推論の深さを指定できる。

これは実用上、非常に合理的な設計だと思う。翻訳やコンテンツモデレーションのような定型処理ではminimalに設定して速度とコストを最優先にし、複雑な判断が必要なタスクではhighに切り替える。1つのモデルで「軽い仕事」と「重い仕事」を使い分けられる。

エージェントのルーティング層で使うことを想定すると、このThinking Levelsは特に効いてくる。ユーザーのリクエストを受け取って振り分けるだけの処理にhighレベルの推論は要らない。minimalで十分だし、そのほうが速い。

実際にどう使うか

Gemini API（AI Studio）とVertex AIからアクセスできる。プレビュー段階なので本番投入は時期尚早だが、検証用途であれば十分に触れる。

筆者が有望だと考えるユースケースはいくつかある。

大量テキストの翻訳処理。 Batch APIで入力$0.125/100万トークンなら、書籍1冊分の翻訳コストが数十円で済む。品質がGPT-5.4 nanoやClaude Haikuと同等以上であれば、翻訳パイプラインの第一選択肢になり得る。

コンテンツモデレーション。 UGCプラットフォームで投稿をリアルタイムにスキャンする場合、モデルの速度とコストは直接的にスケーラビリティに影響する。363トークン/秒の出力速度は、モデレーション用途に十分なスループットだ。

マルチエージェントシステムのルーター。 複数のAIエージェントを束ねるアーキテクチャで、Flash Liteをルーティング層に配置する使い方。Thinking Level minimalで高速に意図分類し、重い処理はGemini 3.1 Proに渡す。

気になる点

もちろん懸念もある。

まず、プレビュー段階であること。GA（一般提供）の時期は未定で、価格が変わる可能性もゼロではない。本番環境での安定性やレート制限についても、まだ情報が限られている。

それから、「Lite」モデルの宿命として、複雑な推論タスクでは上位モデルに及ばない。Thinking Levelをhighにしても、Gemini 3.1 Proの推論品質には届かないだろう。あくまで「コストと速度を優先する層」のモデルであり、万能ではない。

日本語での出力品質も未検証だ。ベンチマークは英語中心のものが多く、日本語の自然さやニュアンスの精度は実際に使ってみないとわからない。

価格破壊の先にあるもの

Gemini 3.1 Flash Liteが示しているのは、LLMの「コモディティ化」の加速だ。100万トークンの処理が1ドル以下になると、「AIを使うかどうか」ではなく「AIを使わない理由があるか」という問いに変わる。

Google、OpenAI、Anthropicの三社が低価格モデルで激しく競争しているのは、ユーザーにとっては純粋に良いことだ。このペースなら、年内にはさらに安いモデルが出てくるだろう。Flash Liteは、その流れの中で現時点のベストバランスに近い選択肢だと思う。

Google AI

Gemini 3.1 Flash Lite — 100万トークン処理で「1ドル以下」の衝撃

速度と性能のバランス

Thinking Levels — 推論の深さを手動で制御する

実際にどう使うか

気になる点

価格破壊の先にあるもの

関連記事

Gemini 3.1 Ultra — 200万トークン、ライブ動画分析。Googleが本気で出した最上位モデルの全貌

Gemini 3.1 Proを本気で使い込んでわかった「推論番長」の実力と限界

Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した