FlowTune Media

GPT-5.5が出た — ベンチマーク圧勝、料金は倍、ハルシネーション率86%という矛盾

82.7%。

Terminal-Bench 2.0でGPT-5.5が叩き出したスコアだ。2位のClaude Opus 4.7は69.4%。3位のGemini 3.1 Proは68.5%。13ポイント以上の差がある。FrontierMath Tier 4では39.6%を記録し、Claude Opus 4.7の22.9%を大きく引き離した。

4月23日、OpenAIはGPT-5.5を正式にリリースした。GPT-4.5以来、初めて基盤モデルをフルスクラッチで再学習したモデルだ。

数字だけ見れば文句なしのトップ。だが、この発表にはいくつかの「注釈」がつく。

何が変わったのか

GPT-5.5はGPT-5.4の改良版ではない。基盤モデル自体を一から再学習した、いわばアーキテクチャリセットだ。OpenAIがこれをやったのはGPT-4.5以来であり、5.0→5.1→5.2→5.3→5.4と積み上げてきたインクリメンタルな改良ではなく、新しい地盤の上に建て直した。

具体的には、コード生成、データ分析、オンラインリサーチ、ドキュメント作成、ソフトウェア操作の5領域で大幅な改善がある。散らかったマルチステップのタスクを渡しても、自分で計画を立て、ツールを使い、作業を確認し、曖昧さの中を進む。エージェント性能の底上げが最大のテーマだ。

GDPvalでは84.9%。これは44の職種にわたる知識労働の実行能力を測るベンチマークで、「AIに仕事を任せてどこまで期待通りの成果が出るか」を数字化したものだ。OSWorld-Verifiedでは78.7%を記録し、実際のコンピュータ環境を自律操作する能力も示した。

料金 — GPT-5.4の倍

ここが議論を呼んでいる。

API料金は入力$5.00、出力$30.00(100万トークンあたり)。GPT-5.4が入力$2.50、出力$15.00だったので、ちょうど2倍になった。日本円に換算すると、100万トークンの出力で約4,500円。業務でAPIを回す開発者にとって、これは無視できないコスト増だ。

さらに上位のPro APIは入力$30.00、出力$180.00。大規模な推論タスクや研究用途を想定した価格帯で、個人開発者が気軽に使えるレベルではない。

バッチAPIなら入力$2.50、出力$15.00でGPT-5.4の通常料金と同じになるため、リアルタイム性が不要なユースケースでは逃げ道がある。だが、コーディングエージェントやチャットボットのように即時応答が必要な用途では、倍額を飲むしかない。

ChatGPTのPlus(月$20)、Pro(月$200)、Business、Enterpriseの各プランでは追加料金なしで利用可能。無料プランには開放されない。

ハルシネーション率86%という報告

GPT-5.5のリリース直後、複数の検証レポートが「ハルシネーション率86%」という数字を報告した。正確に言うと、「知らないはずの質問に対しても自信を持って回答してしまう」傾向が顕著だという指摘だ。

これは額面通りに受け取るべきか。

ベンチマーク上の「正しく答える能力」と「知らないことを知らないと言える能力」は別の軸だ。Terminal-Bench 82.7%やFrontierMath 39.6%はタスク遂行能力を測っている。一方、ハルシネーション率はモデルの「自己認識」に近い。コードを書かせる、計算させるといった明確なゴールがあるタスクでは強いが、曖昧な知識問題では嘘を自信満々に答える——というパターンは、以前のGPTシリーズでも指摘されてきた弱点だ。

実務で使う場合、「GPT-5.5に聞いて鵜呑みにする」ワークフローは危ない。コーディングやデータ分析のように出力を検証できるタスクに絞って使い、知識系の質問には慎重に構える、という使い分けが現実的だろう。

Claude・Geminiとの三つ巴

GPT-5.5のリリースで、フロンティアモデル市場は明確な三つ巴になった。

コーディング性能ではGPT-5.5がTerminal-Bench 82.7%でリード。ただしSWE-bench VerifiedではClaude Opus 4.6が80.6%、DeepSeek V4-Proが80.4%と僅差であり、ベンチマークの種類によって順位が入れ替わる。

コスト面ではDeepSeek V4-Proが出力$3.48/Mと圧倒的に安い。Claude Opus 4.6は$75/M、GPT-5.5は$30/M。DeepSeekがコーディング性能でほぼ並びながら価格で圧勝している構図は、API中心の開発者には見逃せない。

Gemini 3.1 ProはGoogleのインフラ力を背景に推論速度で優位性がある。コーディングベンチマークではGPT-5.5やClaudeに一歩譲るが、Googleエコシステムとの統合が強みだ。

正直、「どれが最強か」はもう意味のない問いになりつつある。用途と予算で使い分ける時代だ。

Codexとの統合が本命

GPT-5.5のリリースで見落とされがちだが、NVIDIAとの協業が同時に発表されている。Codex(OpenAIのコーディングエージェント)がNVIDIAインフラ上で動き、NVIDIA自身もGPT-5.5を社内で活用するという内容だ。

これはGPT-5.5単体の話ではなく、OpenAIの「Super App」構想と直結する。ChatGPT、Codex、Atlasブラウザを統合したデスクトップアプリに最強のモデルを載せ、エンタープライズ顧客を囲い込む。料金が倍になっても、Codexの生産性向上で回収できるならペイする——という論理だ。

個人ユーザーにとっては料金倍増がそのまま痛みになるが、企業ユーザーにとってはCodexの性能向上とセットで評価すべきだろう。

使うべきか

ベンチマーク最強は事実だが、料金倍増とハルシネーション問題も事実。両方を見た上での判断になる。

コーディングエージェントとして使うなら、Terminal-Bench 82.7%の数字は信頼に足る。CodexやChatGPTのPlusプランで使う分には追加料金もかからない。一方、APIで大量に回す開発者は、バッチAPIの活用やDeepSeek V4-Proとの使い分けを真剣に検討したほうがいい。

GPT-4.5以来のフルリトレーニングという事実は重い。土台が変わったモデルには、今後のファインチューニングや改良で伸びしろがある。5.5はゴールではなく、新しい出発点だ。

関連記事