ARC-AGI-2で84.6% — Gemini 3 Deep Thinkが「ひとつの科学研究員」になろうとしている

Gemini 3 Deep Think

ARC-AGI-2で84.6%。この数字を最初に見たとき、正直にいうと2回見直した。

このベンチマークは「既存LLMが苦手とする新しいパズルを解けるか」を測るテストで、Gemini 3.1 Proでも77.1%、Claude Opus 4.6は68.8%、GPT-5.2は52.9%という水準だった。わずか数ヶ月で、ひとつのモデルが人間のパフォーマンスに近い領域まで駆け上がった、ということになる。

4月10日前後にGoogleとGoogle DeepMindが静かに公開したGemini 3 Deep Thinkの「科学・研究・エンジニアリング向け」メジャーアップデートは、単なる数字遊びでは済まない内容だった。

何がアップデートされたのか

Gemini 3 Deep Thinkは2月12日に初出しされ、そのときすでにARC-AGI-2で「84.6%」、Humanity's Last ExamでもGPT-5.4を上回るスコアを出して話題になっていた。あの時点では「Gemini 3 Proの強化版。Google AI Ultra契約者だけがGeminiアプリで使える特別な推論モード」という位置付けだった。

今回のアップデートで変わったのは主に3点だ。

1つめは、専門科学領域への適応。 新しいDeep Thinkは、化学・物理・理論物理といった分野のベンチマークを狙い撃ちするようにチューニングされている。結果として、2025年の国際物理オリンピック（IPhO）と国際化学オリンピック（IChO）の書面試験で金メダル相当のスコアをたたき出した。オリンピックは人間の高校生トップ層でも歯が立たないレベルの試験で、AIが文字通りの最上位層に並んだことになる。

2つめは、ベンチマークの全面強化。 Humanity's Last Examでは「ツール無し」で48.4%。参考までに、4月13日時点のリーダーボードではGPT-5.4が41.6%、GPT-5.3 Codexが39.9%、Gemini 3 Pro Previewが37.2%だ。ツールに頼らない「素の知能」という意味で、現時点で公開されているモデルの中では頭ひとつ抜けている。

さらに凝固系物理理論を問うCMT-Benchmarkで50.5%、Codeforces ELOは3455という、常軌を逸した数字が並ぶ。

3つめが、これが今回のいちばん大事な話なのだが、Gemini API経由の早期アクセス解禁だ。 2月時点ではGoogle AI Ultra（月$249.99）の契約者だけが、しかもGeminiアプリのUIからしか叩けない状態だった。つまり「高い金を払ってチャットとして試すことはできても、自分の研究ワークフローに組み込むことはできない」ツールだった。

今回Googleは「研究者・エンジニア・企業がGemini API経由でDeep Thinkをテストできる」早期アクセス枠を用意した。実験計画の下書き、仮説の検証、論文レビュー、コードのバグ解析 — こういった重たい推論タスクを、API経由で自動化できる余地が生まれたわけだ。

Deep Thinkはそもそも何をしているのか

Deep Thinkは「複数の仮説を並列に考え、検証して、最後に最良の解を選ぶ」という長時間推論モードで動く。内部的には無数の思考経路を枝分かれさせ、自分で相互批判させながら進めていく。結果が出るまでの時間はGemini 3 Proより桁違いに長い代わりに、難問での正答率が一気に跳ね上がる。

イメージとしては、通常のGemini 3 Proが「優秀な研究員がひとりで一発回答する」のに対し、Deep Thinkは「ポスドクがホワイトボードの前で7人のチームを回しながら議論する」ような使い方だ。当然、コストも時間も跳ね上がる。

筆者の個人的な感想を先に書いておくと、この「議論するAI」というメンタルモデルがユーザー側に浸透するかは、料金と応答速度次第だと思っている。どれだけ賢くても返事に20分かかるなら、日常用途には入ってこない。

何が実現可能になるのか

ここから先は筆者の予想も含むが、Deep ThinkがAPI経由で扱えるようになったことで、次のような使い方が現実的になる。

研究アシスタントとしての常駐化。 たとえば大学の研究室が自前のデータ（未発表の実験結果、シミュレーションの生データ）をDeep Thinkに読み込ませ、仮説の矛盾点を洗い出すエージェントを24時間回すようなユースケースだ。ARC-AGI-2とオリンピック級のスコアが担保されているなら、従来「人が夜なべして考えていた論理の穴探し」の一部は確実にAI側に寄せられる。

高難度コードレビューの最終チェック。 Codeforces ELO 3455という数字は、トップ1%のコンペティティブプログラマと並ぶ水準だ。CursorやClaude Codeが書いたコードに対し、Deep Thinkを「最終レビュー用の頭脳」として当てる、という2段構成のワークフローが現実味を帯びてくる。普段の作業はGemini 3 Flashか別のモデルで高速に回し、ここぞという難所だけDeep Thinkに回す。APIが本格解放されれば、開発者ツール側からこれを自動で使い分ける仕組みが出てくるだろう。

専門分野向けエージェントの土台。 物理・化学オリンピックの成績は、理工系の教育コンテンツ生成にも直結する。高校物理の難問を解ける「家庭教師AI」や、論文の再現実験を設計できる「リサーチアシスタント」のような、ドメイン特化型エージェントの下支えとしてDeep Thinkを入れる流れは、これから加速すると見ている。

実現可能性は3つとも十分ある。ただし共通の前提条件は「APIの料金と応答時間がプロダクションに耐えるレベルまで現実的になる」こと。ここが整わなければ、当面は研究ラボと一部の大企業の実験用途に留まるだろう。

正直なところの懸念点

一方で、手放しで褒めるべきでもない。

Deep Thinkの強みは「じっくり考える」ことだが、それは裏を返すと「短時間で答えが返ってくる体験」と相性が悪い。Gemini 3 Proでも体感でやや重いタスクが、Deep Thinkでは桁違いに待たされる覚悟がいる。UIで使っているだけでも、気軽な質問には明らかに向かない。

もうひとつは、ベンチマーク至上主義のリスクだ。ARC-AGI-2で84.6%、Humanity's Last Examで48.4%という数字は確かに歴史的だが、これらのベンチマークにチューニングされた結果である可能性は常に頭に置いたほうがいい。実業務での「ちょっとした曖昧な依頼」への耐性は、スコアだけを見ていても分からない。筆者自身、Gemini 3.1 Proを使い込んできて「論理は強いが、人間の空気を読む微妙な配慮は今でもClaudeのほうが上」と感じる場面が多々あった。Deep Thinkがそこを埋めてくれるかは、実際にAPIを叩いてみないとなんともいえない。

最後に、Deep Think専用の正式なAPI料金はまだ公表されていない。Gemini 3 Proが$2/$12（入出力、200k以下）という価格設定なので、Deep Thinkは確実にこれを上回る。「内部reasoningトークン」も課金対象になる以上、重い質問1回でそれなりのコストが乗るはずだ。研究予算とROIのバランスを見極めながら使うフェーズが当分続くと見ている。

何を見ておくべきか

結論としては、Deep Thinkの今回のアップデートはGoogleが「AIを“頭のいいおしゃべり相手”から“科学研究員”に育てる」フェーズに入ったサインだと受け止めている。ベンチマークでOpenAIをはっきり抜いた、そしてそれを「使える形」でAPIに開き始めた、という2点は小さな事件ではない。

日本語での解説記事がほぼ存在しない今のタイミングは、逆に「早めに触っておくと差がつく」時期でもある。API早期アクセスの申請はGemini APIの公式ドキュメント経由で進めることになるので、研究開発でLLMの推論品質に課題を抱えているチームは、ウェイトリストに名前を載せておく価値は十分ある。

AGIかどうかの議論はひとまず横に置くとして、「人間のトップ層が歯を食いしばって解くテストで金メダルを取るAI」が、APIで呼べるようになる時代に来ていることだけは確かだ。

ARC-AGI-2で84.6% — Gemini 3 Deep Thinkが「ひとつの科学研究員」になろうとしている

何がアップデートされたのか

Deep Thinkはそもそも何をしているのか

何が実現可能になるのか

正直なところの懸念点

何を見ておくべきか

関連記事

Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した

Gemini 3.1 Proを本気で使い込んでわかった「推論番長」の実力と限界

Sundar Pichaiが「来月には」と言ったあのモデル — Gemini 3.5 Proが6月に来る