FlowTune Media

GPT-5.4が来た — OpenAIの最新モデルは「速さ」と「深さ」を両取りしにきた

GPT-4oからGPT-5、そしてGPT-5.4。たった1年半で、OpenAIのフラッグシップモデルは3世代を駆け抜けた。2024年秋に「GPT-5はいつ出るんだ」と苛立っていた頃が遠い昔のようだ。2026年3月5日にリリースされたGPT-5.4は、前世代のGPT-5.2から約半年での更新。OpenAIの開発サイクルがもはや「年次リリース」ではなく「四半期リリース」に移行しつつあることを、このモデル自体が証明している。

ではGPT-5.4は何が変わったのか。そして、本当に使う価値があるのか。

3つの顔を持つモデル

GPT-5.4はStandard、Thinking、Proの3バリアントで構成される。Standardは従来のチャット用途を引き継ぐベースモデル。Thinkingは推論特化で、ChatGPT Plus/Team/Proユーザーに提供される。Proは最高性能モードで、Pro(月200ドル)およびEnterpriseプラン限定だ。

3月17日にはMiniとNanoも追加された。Miniはコスト重視のAPI向け、Nanoはエッジ・組み込み向け。つまり、フルラインナップは5モデル。OpenAIがひとつのバージョン番号の下に、スマホからデータセンターまでカバーする製品群を揃えてきたのは初めてだ。

API価格はStandardで入力$2.50/100万トークン、出力$15.00/100万トークン。Proは入力$30.00と約12倍。ただし272Kトークンを超えると入力価格が倍になる点は見落としやすいので注意が必要だ。

コンテキスト105万トークンの意味

GPT-5.4の最大コンテキストウィンドウは105万トークン(入力922K、出力128K)。OpenAI史上最大で、GPT-4oの128Kからは8倍以上の拡大になる。

この数字がどのくらいかというと、中規模のコードベースを丸ごと放り込んでリファクタリングを依頼できる規模だ。あるいは、数百ページの契約書や論文を一括で処理できる。Gemini 2.5 Proの100万トークンと並び、Claude Opus 4.6の100万トークンとも同水準。コンテキスト長の競争は、ここにきて各社横並びになった。

ただし、長ければいいというものでもない。コンテキストが長くなるほどAPIコストは跳ね上がるし、モデルが本当にウィンドウの端から端まで均質に「読めて」いるかはまた別の問題だ。Claude Opus 4.6が長文脈での忠実度の高さを売りにしていることを考えると、単純なトークン数の比較だけでは優劣はつかない。

ネイティブコンピュータ操作 — 本命機能はここ

筆者がGPT-5.4で最も注目しているのは、ネイティブのコンピュータ操作機能だ。

ブラウザ操作やデスクトップアプリの操作を、外部ツールなしでモデル自身が実行できる。OSWorld(デスクトップ操作のベンチマーク)で75%を達成しており、人間の専門家のベースライン72.4%を上回った。つまり、定型的なデスクトップ作業においてはモデルが人間を超えたことになる。

この数字の意味は大きい。Claude Opus 4.6のComputer Useが72.7%、Gemini系モデルがまだこの領域に本格参入していないことを踏まえると、GPT-5.4は現時点でコンピュータ操作の最高峰と言っていい。

もちろん、75%ということは4回に1回は失敗する。ベンチマーク上の「超人」と、実際の業務で信頼して任せられるかは別問題だ。しかし、スクリーンショットを解析してクリック座標を返すような力技ではなく、アプリケーションの構造を理解した上で操作する設計になっているのは技術的に興味深い。エージェント用途の本命機能として、今後の進化を追う価値がある。

Thinkingモデルの「途中経過を見せる」設計

GPT-5.4 Thinkingの特徴は、推論の途中計画をユーザーに提示できることだ。

従来のo1やGPT-5.2 Thinkingでは、モデルが内部で思考してから最終回答を出す一方通行だった。GPT-5.4 Thinkingでは、思考の計画段階を前もって表示し、ユーザーが途中で軌道修正できる。「その方向じゃなくて、こっちを考えて」と、生成の途中で介入できるわけだ。

OpenAIはこれを「ステアラブル・リーズニング」と呼んでいる。実際に使ってみると、複雑な分析タスクで「無駄な推論ターン」が減る感覚がある。ただし、介入のタイミングが難しく、計画を読んで判断する時間的余裕は限られる。慣れるまでは、従来の「考えさせてから出力を確認する」やり方の方が効率的なケースもある。

ベンチマーク — 数字を冷静に見る

SWE-bench Pro(コーディング)で57.7%、GDPval(ナレッジワーク)で83%。個々の主張でのエラー率はGPT-5.2比で33%減少、回答全体のエラー含有率は18%減少。数字だけ見れば、着実な改善だ。

しかし競合との比較は一筋縄ではいかない。SWE-bench Verified(実世界のソフトウェアエンジニアリング)ではClaude Opus 4.6が80.8%で、GPT-5.4の約80%をわずかにリードする。一方、SWE-bench Proという「より難しい」バリアントではGPT-5.4が57.7%でClaude Opus 4.6の推定45%前後を大きく引き離す。抽象的推論ではClaude Opus 4.6がARC-AGI-2で16ポイント差をつけて勝つ。

要するに、「全領域で最強」のモデルは存在しない。GPT-5.4はコスト効率、コンピュータ操作、高速処理に強く、Claude Opus 4.6は複雑なマルチステップ推論、長文脈の忠実度、大規模コードベース解析に強い。両者の得意領域は明確に分かれており、実務では併用するのが現実的な選択肢だ。

気になる点

トークン効率の裏側。 GPT-5.4は「少ないトークンで同じ問題を解ける」とOpenAIは強調する。確かにAPI利用ではコスト削減に直結するが、トークン効率を追求した結果、回答の深さや網羅性が犠牲になっていないかは継続的に検証が必要だ。

バージョン番号のインフレ。 4o、5、5.2、5.3-Codex、5.4。命名規則の一貫性が失われつつある。5.4が5.3-Codexのコーディング能力を統合したモデルだと知っている人はどれだけいるだろうか。ユーザーにとっての分かりやすさより、マーケティング上の「新しさ」が優先されている印象がある。

Pro版の価格正当性。 入力トークンあたりStandardの12倍の価格を払ってPro版を使う場面が、どれだけの人にあるのか。ベンチマーク上の差分が実業務でどこまで効いてくるかは、もう少しコミュニティの検証を待ちたい。

筆者の見方

GPT-5.4は「飛躍」というより「統合と洗練」のリリースだ。コーディング系列(5.3-Codex)を汎用モデルに統合し、コンピュータ操作をネイティブ化し、推論プロセスを可視化した。どれも新機能というより、これまで別々に存在していた能力をひとつのモデルに収束させた仕事だ。

それでも、この統合自体に価値がある。ひとつのAPIエンドポイントでテキスト生成、コード生成、推論、コンピュータ操作をすべてカバーできるモデルは、開発者にとってインテグレーションコストを大幅に下げる。5つのバリアントでエッジからクラウドまで対応する点も、プロダクト設計として成熟している。

AI業界は今、「新しいことができるモデル」から「既存の能力を実用レベルまで引き上げるモデル」へとフェーズが移りつつある。GPT-5.4はその転換点を象徴するモデルだと、筆者は考えている。

参考リンク

GPT-5.4 - 公式発表

GPT-5.4 - TechCrunch

OpenAI - API料金

関連記事