GPT-5.5が出た — ベンチマーク圧勝、料金は倍、ハルシネーション率86%という矛盾
82.7%。
Terminal-Bench 2.0でGPT-5.5が叩き出したスコアだ。2位のClaude Opus 4.7は69.4%。3位のGemini 3.1 Proは68.5%。13ポイント以上の差がある。FrontierMath Tier 4では39.6%を記録し、Claude Opus 4.7の22.9%を大きく引き離した。
4月23日、OpenAIはGPT-5.5を正式にリリースした。GPT-4.5以来、初めて基盤モデルをフルスクラッチで再学習したモデルだ。
数字だけ見れば文句なしのトップ。だが、この発表にはいくつかの「注釈」がつく。
何が変わったのか
GPT-5.5はGPT-5.4の改良版ではない。基盤モデル自体を一から再学習した、いわばアーキテクチャリセットだ。OpenAIがこれをやったのはGPT-4.5以来であり、5.0→5.1→5.2→5.3→5.4と積み上げてきたインクリメンタルな改良ではなく、新しい地盤の上に建て直した。
具体的には、コード生成、データ分析、オンラインリサーチ、ドキュメント作成、ソフトウェア操作の5領域で大幅な改善がある。散らかったマルチステップのタスクを渡しても、自分で計画を立て、ツールを使い、作業を確認し、曖昧さの中を進む。エージェント性能の底上げが最大のテーマだ。
GDPvalでは84.9%。これは44の職種にわたる知識労働の実行能力を測るベンチマークで、「AIに仕事を任せてどこまで期待通りの成果が出るか」を数字化したものだ。OSWorld-Verifiedでは78.7%を記録し、実際のコンピュータ環境を自律操作する能力も示した。
料金 — GPT-5.4の倍
ここが議論を呼んでいる。
API料金は入力$5.00、出力$30.00(100万トークンあたり)。GPT-5.4が入力$2.50、出力$15.00だったので、ちょうど2倍になった。日本円に換算すると、100万トークンの出力で約4,500円。業務でAPIを回す開発者にとって、これは無視できないコスト増だ。
さらに上位のPro APIは入力$30.00、出力$180.00。大規模な推論タスクや研究用途を想定した価格帯で、個人開発者が気軽に使えるレベルではない。
バッチAPIなら入力$2.50、出力$15.00でGPT-5.4の通常料金と同じになるため、リアルタイム性が不要なユースケースでは逃げ道がある。だが、コーディングエージェントやチャットボットのように即時応答が必要な用途では、倍額を飲むしかない。
ChatGPTのPlus(月$20)、Pro(月$200)、Business、Enterpriseの各プランでは追加料金なしで利用可能。無料プランには開放されない。
ハルシネーション率86%という報告
GPT-5.5のリリース直後、複数の検証レポートが「ハルシネーション率86%」という数字を報告した。正確に言うと、「知らないはずの質問に対しても自信を持って回答してしまう」傾向が顕著だという指摘だ。
これは額面通りに受け取るべきか。
ベンチマーク上の「正しく答える能力」と「知らないことを知らないと言える能力」は別の軸だ。Terminal-Bench 82.7%やFrontierMath 39.6%はタスク遂行能力を測っている。一方、ハルシネーション率はモデルの「自己認識」に近い。コードを書かせる、計算させるといった明確なゴールがあるタスクでは強いが、曖昧な知識問題では嘘を自信満々に答える——というパターンは、以前のGPTシリーズでも指摘されてきた弱点だ。
実務で使う場合、「GPT-5.5に聞いて鵜呑みにする」ワークフローは危ない。コーディングやデータ分析のように出力を検証できるタスクに絞って使い、知識系の質問には慎重に構える、という使い分けが現実的だろう。
Claude・Geminiとの三つ巴
GPT-5.5のリリースで、フロンティアモデル市場は明確な三つ巴になった。
コーディング性能ではGPT-5.5がTerminal-Bench 82.7%でリード。ただしSWE-bench VerifiedではClaude Opus 4.6が80.6%、DeepSeek V4-Proが80.4%と僅差であり、ベンチマークの種類によって順位が入れ替わる。
コスト面ではDeepSeek V4-Proが出力$3.48/Mと圧倒的に安い。Claude Opus 4.6は$75/M、GPT-5.5は$30/M。DeepSeekがコーディング性能でほぼ並びながら価格で圧勝している構図は、API中心の開発者には見逃せない。
Gemini 3.1 ProはGoogleのインフラ力を背景に推論速度で優位性がある。コーディングベンチマークではGPT-5.5やClaudeに一歩譲るが、Googleエコシステムとの統合が強みだ。
正直、「どれが最強か」はもう意味のない問いになりつつある。用途と予算で使い分ける時代だ。
Codexとの統合が本命
GPT-5.5のリリースで見落とされがちだが、NVIDIAとの協業が同時に発表されている。Codex(OpenAIのコーディングエージェント)がNVIDIAインフラ上で動き、NVIDIA自身もGPT-5.5を社内で活用するという内容だ。
これはGPT-5.5単体の話ではなく、OpenAIの「Super App」構想と直結する。ChatGPT、Codex、Atlasブラウザを統合したデスクトップアプリに最強のモデルを載せ、エンタープライズ顧客を囲い込む。料金が倍になっても、Codexの生産性向上で回収できるならペイする——という論理だ。
個人ユーザーにとっては料金倍増がそのまま痛みになるが、企業ユーザーにとってはCodexの性能向上とセットで評価すべきだろう。
使うべきか
ベンチマーク最強は事実だが、料金倍増とハルシネーション問題も事実。両方を見た上での判断になる。
コーディングエージェントとして使うなら、Terminal-Bench 82.7%の数字は信頼に足る。CodexやChatGPTのPlusプランで使う分には追加料金もかからない。一方、APIで大量に回す開発者は、バッチAPIの活用やDeepSeek V4-Proとの使い分けを真剣に検討したほうがいい。
GPT-4.5以来のフルリトレーニングという事実は重い。土台が変わったモデルには、今後のファインチューニングや改良で伸びしろがある。5.5はゴールではなく、新しい出発点だ。
関連記事
"Spud" と呼ばれているモデルが4月末に来るかもしれない — OpenAIの次期フラッグシップをめぐる既知と未知
OpenAIの次期モデル(コードネームSpud)は2026年3月24日にプリトレーニング完了。GPT-5.5とGPT-6のどちらで出るのか、リリース予測、Brockman発言の読み解き方まで、現時点で確実な情報と推測を分けて整理する。
ChatGPTの裏で動いている「控えのAI」が、静かに賢くなっていた — GPT-5.3 Instant Mini
OpenAIがChatGPTのフォールバックモデルGPT-5.3 Instant Miniを公開。モデルピッカーに出てこない「無料・Plus枠の控え選手」が何を改善したか、無料ユーザーに効く理由を整理する。
ChatGPTに$100プランが来た — $20と$200の隙間を埋めた4月のアップデート
OpenAIが新設した月額$100のChatGPT Proプランの内容を整理。Codex利用量がPlusの5倍、ClaudeのPro対抗、誰が移行すべきかを考察する。