Gemini 3.1 Proを本気で使い込んでわかった「推論番長」の実力と限界

Gemini 3.1 Pro

ARC-AGI-2で77.1%。この数字がGemini 3.1 Proの立ち位置を端的に物語っている。Claude Opus 4.6が68.8%、GPT-5.2が52.9%。推論ベンチマークにおいて、GoogleがOpenAIとAnthropicを明確に上回った。数字だけを見れば「Googleの勝ち」だ。だが、実際に使い込んでみると、数字が語らない部分にこそこのモデルの本質がある。

2月19日にリリースされたGemini 3.1 Proは、18のベンチマーク中12で1位を獲得している。しかもAPI価格はGemini 3 Proと同じ$2/$12のまま。値上げなし。この「性能2倍、価格据え置き」という戦略は、LLM市場に静かだが確実なインパクトを与えている。筆者はリリース直後から日常のワークフローに組み込んで使っているが、確かにこの価格帯で得られる推論品質としては頭ひとつ抜けていると感じる。

何が変わったのか

Gemini 3 Proからの最大の進化は推論能力だ。複雑な問題を段階的に分解し、論理的に解く力が劇的に向上した。Googleは「2倍以上の推論性能向上」と表現しているが、ARC-AGI-2のスコアを見ればそれが誇張でないことがわかる。

具体的に体感できるのは、多段階の論理的推論が求められるタスクだ。たとえば「このビジネスモデルの収益構造を分析して、3年後のリスク要因を洗い出せ」といった抽象度の高い問い。以前のGemini 3 Proでは途中で論理が飛躍したり、前提条件を見落としたりすることがあったが、3.1 Proでは一貫した思考の流れを維持できるようになった。「考える体力」が増した、という表現がしっくりくる。

コンテキストウィンドウは1Mトークン（約100万語）で、出力は最大65,536トークン。コードベース全体、8.4時間の音声、900ページのPDF、1時間の動画を一度に処理できる。マルチモーダル対応は引き続きGeminiの強みだが、ここで注目すべきは単に「大量のデータを入力できる」という話ではなく、大量の入力に対して推論品質が劣化しにくくなった点だ。長大なコンテキストの中から必要な情報を正確に拾い上げ、それを論理的に組み合わせる能力が明らかに上がっている。

使い方のハードルが低い

Gemini 3.1 Proの魅力は性能だけではない。アクセスのしやすさも突出している。これは地味だが、実務での採用判断においてはかなり重要なポイントだ。

Google AI StudioにGoogleアカウントでログインすれば、無料で試せる。APIキーの取得も数クリックで完了する。GeminiアプリからモデルをGemini 3.1 Proに切り替えるだけでも使えるし、NotebookLMでも利用可能だ。つまり、エンジニアでなくても高性能な推論モデルにアクセスできる導線がGoogleのエコシステム全体に張り巡らされている。

月額プランでは、Google AI Proプラン（月額2,900円）に含まれる。Claude ProやGPT Plusと同価格帯でこの推論性能が使えるのは、率直に言ってコスパが良い。個人的には、まずは無料枠で試してみて、日常的に使うようになったらProプランに移行するのが無駄のないルートだと思う。

API料金は入力$2、出力$12（100万トークンあたり）。Claude Opus 4.6の$15/$75と比較すると、入力で約7.5倍、出力で約6倍安い。大量のドキュメントを処理するようなバッチ的なユースケースでは、このコスト差は無視できない。月間のAPI費用が数万円から数千円に下がるケースも十分にあり得る。

どこが強くて、どこが弱いか

まず強い点から。論理的推論を必要とするタスクでは圧倒的だ。データ分析、数学的推論、コード内のバグ特定、複雑な条件分岐のロジック設計。こうした「深く考える」タスクでGemini 3.1 Proは他モデルを明確にリードする。筆者が特に恩恵を感じるのは、長めのプロンプトで複数の制約条件を同時に満たす回答を求めるときだ。条件が5つ6つと増えても破綻しにくい。

マルチモーダルも強い。長時間の動画を渡して「要約して」と言えるのは、現状Geminiだけの強みだ。会議の録画やウェビナーのアーカイブを丸ごと投げて、要点を抽出させるワークフローは非常に実用的で、これだけのためにGeminiを選ぶ価値があると言っても過言ではない。

一方で、弱い点もはっきりしている。コードの生成品質では、Claude Opus 4.6のほうが安定している印象がある。SWE-benchのスコアは公表されていないが、筆者の体感ではClaudeのコードのほうが「そのまま動く」確率が高い。Gemini 3.1 Proが生成するコードは論理構造としては正しいことが多いものの、ライブラリのバージョン違いやエッジケースの処理で微妙にズレることがある。推論は強いがコーディングは別の話、ということだ。

日本語の文章生成は悪くないが、GPT-5.4のほうが自然な表現をする場面が多い。Geminiの日本語は正確だが、やや翻訳調が残る。ビジネスメールや報告書のように「正確さ優先」のテキストなら問題ないが、読み物としての心地よさが求められるコンテンツではまだ改善の余地がある。

もうひとつ気になるのは、レスポンス速度だ。推論能力が上がった分、複雑なタスクでは回答生成にやや時間がかかる。Claude Opus 4.6も決して速くはないが、Gemini 3.1 Proは「考えている」時間が長い場面がある。リアルタイム性を求めるチャットボット用途では、Flashモデルとの使い分けを検討したほうがいいだろう。

これで何が実現できるか

ベンチマークの話ばかりしていても仕方ないので、実際に筆者が価値を感じている活用法をいくつか挙げておく。

ひとつは、大量のリサーチ資料の統合分析だ。複数のPDFレポートや長文記事をまとめてコンテキストに投入し、「これらの情報を統合して、矛盾点と共通する見解を整理せよ」と指示する。1Mトークンのコンテキストと向上した推論能力の組み合わせにより、人間が半日かけてやるような横断的な分析を数分で出力してくれる。もちろん出力をそのまま鵜呑みにはしないが、思考の起点としては極めて有用だ。

もうひとつは、コードレビューの補助。大きめのPRの差分を渡して「潜在的なバグとパフォーマンス上の懸念を指摘せよ」と聞くと、かなり的確な指摘が返ってくる。コード生成ではClaudeに軍配が上がるが、コードを「読む」能力ではGemini 3.1 Proも十分に戦える 🔍

3大モデルの使い分け

2026年4月時点での筆者の使い分けはこうだ。

深い推論が必要な分析タスク: Gemini 3.1 Pro
コーディング: Claude Opus 4.6
日本語の文章作成: GPT-5.4
コスト重視の大量処理: Gemini 3.1 Pro
動画・音声の要約: Gemini 3.1 Pro

万能なモデルはまだない。だが、Geminiがこの価格帯でこの推論性能を提供していることは、市場全体の価格圧力として健全に機能している。AnthropicもOpenAIも、いずれ価格を下げざるを得なくなるだろう。

正直なところ、半年前まではGeminiを「ベンチマークでは強いが実用では微妙」と見ていた。3.1 Proでその評価は明確に変わった。推論性能の向上は体感レベルで実感できるし、コストパフォーマンスを考えれば現時点で最も合理的な選択肢のひとつだ。「とりあえずChatGPTを使っている」という人にこそ、一度Gemini 3.1 Proを試してみてほしい。特に分析系のタスクで、その推論力の差を体感できるはずだ。

Gemini公式サイト

Gemini 3.1 Proを本気で使い込んでわかった「推論番長」の実力と限界

何が変わったのか

使い方のハードルが低い

どこが強くて、どこが弱いか

これで何が実現できるか

3大モデルの使い分け

関連記事

Claude Fable 5・GPT-5.5・Gemini 3.1 Pro比較【2026年6月版】— 3大フロンティアAI、「最強」は用途で入れ替わる

Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した

ARC-AGI-2で84.6% — Gemini 3 Deep Thinkが「ひとつの科学研究員」になろうとしている