FlowTune Media

Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した

$1.50/Mトークンのモデルが、$15/Mのフラッグシップを複数のベンチマークで上回った。

Google I/O 2026の初日、5月19日に発表されたGemini 3.5 Flashは、そういう位置づけのモデルだ。MCP Atlas 83.6%、Terminal-Bench 2.1で76.2%。エージェント系ベンチマークではClaude Opus 4.7もGPT-5.5も上回る。それでいてAPI価格はOpusの10分の1、出力速度は4倍。

「Flashは廉価版」という認識は、今日をもって改めた方がいい。

数字で見るGemini 3.5 Flash

まず事実を並べる。

項目 Gemini 3.5 Flash Claude Opus 4.7 GPT-5.5
MCP Atlas(エージェント) 83.6% 78.2% 80.1%
Terminal-Bench 2.1(コーディング) 76.2% 74.8% 78.2%
CharXiv Reasoning(マルチモーダル推論) 84.2% 79.6% 82.1%
SWE-Bench Pro 52.1% 64.3% 56.8%
MRCR v2 128k(長文検索) 82.4% 88.1% 94.8%
API入力価格(/1Mトークン) $1.50 $15.00 $5.00
API出力価格(/1Mトークン) $9.00 $75.00 $30.00
コンテキスト 1M 1M 256k
最大出力 65k 32k 16k

MCP Atlasはエージェントがツールを呼び出し、計画を立て、外部APIと連携する能力を測るベンチマークだ。ここで3.5 Flashが単独首位に立ったことが、このモデルの設計思想を端的に示している。Googleはチャットの賢さではなく、エージェントとしての実行力にこのモデルの照準を合わせた。

一方で、SWE-Bench Proでは Opus 4.7 に12ポイント差をつけられている。長いコードベースを横断して複雑なバグを修正するような「重い」コーディングタスクでは、まだフラッグシップモデルに分がある。128kトークンの密な情報検索(MRCR v2)でもGPT-5.5に大きく離されており、「長いコンテキストの中から特定の情報を拾う」用途はGemini 3.5 Flashの弱点と言える。

なぜ「Flash」がここまで強いのか

Gemini 3.5 Flashの技術的な注目点は、ダイナミックシンキングだ。推論の深さを4段階(minimal / low / medium / high)で切り替えられる。デフォルトではオンになっており、タスクの複雑さに応じてモデルが自動的にどこまで深く考えるかを調整する。

これが速度と性能の両立を可能にしている仕組みだ。簡単な質問にはminimalで即答し、複雑なエージェントタスクにはhighで時間をかけて考える。ユーザーから見れば「速い時は速く、難しい時はちゃんと考える」という自然な挙動になる。

もうひとつ、thought preservationという機能がある。ターン間で思考プロセスを保持できる仕組みで、マルチターンのエージェントタスクで「前のターンで何を考えていたか」を引き継げる。エージェントが複数のツールを順に呼び出しながら作業を進めるシナリオでは、これが効く。

料金の衝撃

入力$1.50、出力$9.00。キャッシュ利用時は入力$0.15。

この価格帯でMCP Atlas首位という事実は、エージェント開発の経済性を根本から変える。たとえば1つのエージェントタスクで10万トークンを消費するとして、Gemini 3.5 Flashなら約$1。Opus 4.7なら約$8。8倍の差だ。

1日100タスク回すエージェントを運用するなら、月額で$3,000 vs $24,000。この差は個人開発者にもスタートアップにも、判断を変えるレベルの金額だ。

ただし、前世代のGemini 3.1 Flashと比較すると価格は約3倍になっている。「Flash = 格安」という感覚のまま大量に回すと、請求額に驚く可能性はある。Googleは性能を大幅に引き上げた分、Flashの価格帯も一段上げた。

Antigravityで最大12倍速

Google I/O 2026で目立ったのは、Antigravityとの統合だ。Googleの公式IDEであるAntigravityでGemini 3.5 Flashを使うと、出力速度が最大12倍になるという。通常のAPI経由でも4倍速を謳っている。

Antigravityはまだ開発者向けの限定ツールだが、ここにGemini 3.5 Flashを組み合わせたときの開発体験は、率直に言って気になる。Cursorのエージェントモードが流行った理由のひとつは「待たされない」ことだったが、12倍速のFlashが出てきたことで、Google側のコーディング体験もようやく勝負になるかもしれない。

使い分けの結論

筆者の現時点での整理はこうだ。

Gemini 3.5 Flashが向く場面:

  • MCPツール連携のエージェント開発(MCP Atlas首位)
  • マルチモーダル推論(画像・音声・動画を混ぜた入力)
  • コスト重視の大量バッチ処理
  • 速度が最優先の対話型アプリケーション

Opus 4.7やGPT-5.5を選ぶべき場面:

  • 大規模コードベースの横断的な修正(SWE-Bench Pro)
  • 128k超の長文から特定情報を正確に拾う作業(MRCR v2)
  • 最高精度が求められる一発勝負のタスク

正直なところ、筆者のワークフローの7割はGemini 3.5 Flashで置き換え可能だと感じた。エージェント性能で選ぶなら現時点の最適解だし、コストが10分の1なら「とりあえずFlashで試す」がデフォルトになる。残りの3割、特にSWE-Bench級の複雑なコーディングでは、まだOpusに出番がある。

Googleの賭け

Gemini 3.5 Flashは、Googleが「次のAIの主戦場はエージェントだ」と宣言するために作ったモデルに見える。チャットボットとしての賢さよりも、ツールを呼び出し、計画を実行し、結果を返すエージェントとしての能力に全振りしている。

同日発表のGemini Sparkが24時間稼働のパーソナルエージェント、Gemini Omniがマルチモーダル動画生成。すべてのピースが「Geminiはエージェント基盤である」というメッセージに集約されている。

1年前、FlashはProの簡易版だった。今、Flashはエージェント用途でProを超えた。この逆転が定着するかどうかは、実際のエージェント開発での採用率にかかっている。APIは公開済み。Google AI StudioGemini APIですぐに試せる。

関連記事