FlowTune Media

GPT-6 公開 — 価格据え置きで200万トークン、そしてSoraを飲み込んだ

2026年4月10日、OpenAIはGPT-6を正式に公開した。内部コードネームは「Spud」。サムネはいつもの黒地に白文字のOpenAIロゴ、Sam Altmanのツイートは短く「GPT-6 is out.」だけ。派手な発表会も、長尺のデモ動画もない。しかし中身は、ここ1年で一番踏み込んだアップデートだ。

GPT-5.4がリリースされたのが3月5日。そこから35日しか経っていない。四半期リリースどころか、もはや月次リリースに近づいている。開発サイクルの速さそのものが、OpenAIの現在地を示している気がする。

何が変わったのか、手短に

まず、事実関係だけ先に整理しておく。

項目 GPT-5.4 GPT-6
コンテキスト長 105万トークン 200万トークン
入力価格(API) $2.50 / 1M tokens $2.50 / 1M tokens
出力価格(API) $15.00 / 1M tokens $12.00 / 1M tokens
マルチモーダル 画像・音声対応 テキスト/画像/音声/動画をネイティブ同時処理
推論方式 単層(Thinkingモード) 二層(System-1 / System-2)
ハルシネーション率 非公表 0.1%未満(OpenAI自己申告)
動画生成 非対応 対応(Sora機能を統合)

ざっくり言うと、コンテキストは2倍、価格はむしろ下がり、マルチモーダルは別モデルではなく本体で処理するようになった。そして「Sora打ち切り → GPT-6のネイティブ動画生成に統合」という流れが、この発表でようやく腑に落ちる。

筆者は発表直後からAPIで触り始めているが、正直「GPT-5.4から何が変わった?」と疑心暗鬼で入って、30分で撤回した。違う。根本的に違う。

System-1 / System-2 — 「考える前に思いつく」を2つに分けた

今回の目玉は、OpenAIが「Symphony」と呼ぶ新しい推論アーキテクチャだ。中身はシンプルで、ダニエル・カーネマンの『ファスト&スロー』そのまま。

  • System-1(速い思考)— 反射的に応答を生成する。ストリーミング速度を優先する。従来のGPTの延長線上にある部分。
  • System-2(遅い思考)— System-1 が出した内容を、論理的な矛盾がないか、事実関係がずれていないか、複数の推論経路を比較してから検証する。

GPT-5.4の「Thinkingモード」との違いは、Thinkingが「考える時間をユーザーが指定して、その時間だけ深く考える」形式だったのに対し、GPT-6では常にこの二層構造が走ることだ。System-1の出力をそのまま返すこともあれば、System-2で書き換えることもある。判断はモデル側で自動的に行われる。

OpenAIはこの仕組みでハルシネーション率を「0.1%未満」に下げたと主張している。この数字の測定方法は公開されていないので、そのまま鵜呑みにはできない。ただ、APIで複雑な推論を投げたときの「あれ、途中で話が変わった」が明らかに減っているのは体感できる。数字の真偽はさておき、方向性としては確かに効いている。

200万トークン — 「読ませる」から「住ませる」へ

コンテキスト窓が200万トークンに拡張された。GPT-5.4の105万から倍増、Claude Opus 4.6の100万、Gemini 3.1 Ultra の100万と比べても頭ひとつ出た。

200万トークンは日本語にすると約150万字。単行本で言えば10冊分、中規模のコードベースなら丸ごと、数百ページの契約書と添付資料をまとめて放り込んでも余裕がある。

ここで面白いのは、OpenAIの公式発表が「コンテキスト長」ではなく「コンテキスト持続性」という言葉を使っていることだ。単に窓が広いだけでなく、窓の端と中央で応答品質が均質になるように訓練されている、という主張らしい。Claude Opus 4.6が長文脈忠実度で強みを出していたところに、OpenAIが正面から殴り込んだ形になる。

筆者は300ページほどのPDF(英文の技術仕様書)を丸ごと入れて、末尾の付録Bの内容だけを聞いてみた。GPT-5.4で同じことをやると「付録Bには言及がありません」と返ってくることがあったが、GPT-6は正確に付録Bの3段目から引用してきた。サンプル1回の印象なので断言はできないが、少なくとも「端っこを忘れる問題」は減っている。

マルチモーダル統合 — Soraが消えた理由がここにある

GPT-6の本当の衝撃は、ここかもしれない。

従来、OpenAIはテキスト(GPT)、画像生成(DALL-E、後にGPT-Image)、動画生成(Sora)、音声(Whisper、Voice Mode)を別々のモデルで提供していた。GPT-6はこれらをひとつのベクトル空間にまとめた。

何が変わるかというと、プロンプト1つで「テキスト応答+それを読み上げる音声+同じ内容を説明する図解+キャラクターが一貫した短い動画」を一括生成できる。モデル内部では全て同じ表現空間で処理されているため、音声のトーンと動画のキャラクター表情と文章の感情が揃う。従来のパイプライン型マルチモーダル(Whisperで書き起こし→GPTで返答→DALL-Eで画像→TTSで音声)では出せなかった整合性だ。

そしてこのアーキテクチャが、Sora打ち切りの理由をようやく説明する。3月24日にOpenAIがSoraを止めると発表したとき、業界の反応は「あんなに盛り上がったのになぜ」だった。答えはシンプルで、動画生成を独立した製品として維持するコストより、GPT-6のマルチモーダル能力として統合する方が構造的に安上がりだったのだ。Soraは失敗した製品というより、GPT-6に吸収された前身と見るべきかもしれない。Sora終了の経緯については、別記事で整理したのでそちらも参照してほしい。

価格据え置き(実は値下げ)の意味

GPT-6の価格は入力$2.50、出力$12.00/1Mトークン。GPT-5.4と比べると出力が$15→$12に下がっている。性能が40%上がり、コンテキストが2倍になり、動画生成まで含めて、それで値下げだ。

これは単なるサービス精神ではない。OpenAIの戦略が透けて見える。

  • Anthropic Claude Opus 4.6は入力$15/出力$75(GPT-6の6倍)。Claude Sonnet 4.6でも入力$3/出力$15。
  • Google Gemini 3.1 Ultraは最新の料金改定で入力$1.25/出力$10。
  • 中国のDeepSeek V4 は入力$0.27/出力$1.10という破壊的な価格でOSS系エコシステムを蝕んでいる。

要するに、上は「Claudeの高級路線を侵食しながら、下から来るGemini・DeepSeekを振り切る」ポジショニングだ。価格据え置きは、OpenAIが自社モデルの効率を十分に上げられた自信の表れでもある。もしくは、IPO前の市場シェアを最優先にした判断。どちらにしても、ユーザー側にとっては歓迎すべきニュースだ。

何ができるようになるのか — 実務視点で3つだけ

機能紹介は多くの速報記事が書いているので、ここからは「この組み合わせで何ができるか」に絞る。

1. コードベース全体を「その場で理解してから答える」アシスタント

200万トークンは、中規模のOSSリポジトリなら丸ごと入る。しかもSystem-2で論理検証が走るので、「このリファクタリングで壊れるテストはどれか」「この関数の変更がどのモジュールに影響するか」を、検索→推論→検証の流れをワンショットで返せるようになる。Cursor や Claude Code が毎回コンテキストを削って節約していたのが嘘のようになる可能性がある。

2. 動画を使った学習コンテンツ生成の実務投入

テキスト+図解+ナレーション+短尺動画を整合性を保ったまま一括生成できるので、eラーニング教材や商品紹介動画の初稿作成が現実的になる。もちろん長尺の映画レベルではない。10〜30秒の説明クリップをキャラクターや背景の一貫性を保ったまま量産する、という用途。HeyGen や ElevenLabs といった専門ツールとの棲み分けはまだ残るが、「とりあえず1本作る」のコストは劇的に下がる。

3. 企業内ナレッジの"居住地"としての活用

200万トークンのコンテキスト持続性が本当に主張通りなら、社内ドキュメント数千ページをそのまま投げ入れて、質問応答させる使い方が現実的になる。これまでは RAG(検索拡張生成)で部分取得していた領域だ。RAG が完全に不要になるわけではないが、「まずコンテキストに全部入れる」が最初の選択肢になる場面は確実に増える。

正直、微妙だと感じるところ

良い話ばかり並べるのもフェアじゃないので、現時点で気になる点もいくつか。

System-2 が常時走ることによる応答遅延。簡単な質問でも内部で検証フェーズが走るため、GPT-5.4のStandardより体感レスポンスが0.3〜0.8秒ほど遅い。ストリーミングで見ていると「何か考えてる間」があるのが見える。急ぎの対話には向かない場面もあるだろう。

ハルシネーション率0.1%の検証不能性。OpenAIが独自に定義した指標なので、外部機関が再現できる形になっていない。実務では「減った感じはするが、ゼロではない」というのが正直なところ。金融・医療・法務の現場ではファクトチェックの工程を省けない。

動画生成の品質はまだSoraの最盛期以下。マルチモーダル統合で整合性は上がったが、純粋な映像クオリティではRunway Gen-4.5やKling 3に見劣りする場面がある。プロの映像制作者が専門ツールを手放すレベルではない。

200万トークンの"持続性"はまだサンプル数が少ない。筆者の手元でも数回試しただけで、ランダム性もあるので、今後ベンチマークが出てくるのを待ちたい。

ChatGPT側への反映と日本の状況

API経由ではリリース直後から利用可能。ChatGPTのインターフェースではリリース後24〜48時間でロールアウトが始まっており、筆者の環境では既にPlusプランのモデル選択に「GPT-6」が並んでいる。無料プランでは「GPT-6 mini」相当が限定的に使える形だ。

日本での利用にあたっては、2M コンテキストをフルに使いたいなら API 直叩きが現実的(ChatGPT UI 側では制限されている)。JPY換算では入力が約1トークン0.00038円、出力が0.00181円。200万トークンを1回フルで使うと約4,400円という計算になる。体感的には「使えるけど毎回は厳しい」価格帯だ。

まとめに代えて

GPT-6は、個別の機能を並べると目立つ要素がいくつもあるが、全体として見ると「OpenAIが一段抽象度を上げた」という感想に落ち着く。モデル間の境界(チャット用、コード用、画像用、動画用)を溶かして、ひとつの基盤モデルに統合する。System-1/2の二層構造は、そのアーキテクチャ転換に必要な仕掛けだった気がする。

競合との関係で見ると、Claude Opus 4.6 がコーディング品質と推論の深さで、Gemini 3.1 Ultra が検索統合とコストで、それぞれの強みを維持しているので、「GPT-6が全てを塗り替えた」とまでは言えない。しかし、日々の作業で使うベースモデルを1つ選ぶなら、2026年4月時点では GPT-6 が最有力候補になる。少なくとも、API コストと機能のバランスでここに追いつけるモデルは今のところ見当たらない。

「GPT-5.4は過渡期のモデルだった」と数ヶ月後に振り返ることになるかもしれない。そのくらい、今回のアップデートは方向性をはっきり示している。

関連記事