DALL-E終了、後継は「考えてから描く」 — ChatGPT Images 2.0で何が変わるのか

DALL-E 2とDALL-E 3が、2026年5月12日に廃止される。
OpenAIが4月21日にリリースしたChatGPT Images 2.0は、その後継モデルだ。内部的なモデル名は「gpt-image-2」。先日LMArenaにリークされていた「テープ三兄弟」の正体がこれだったことになる。
今回の発表で一番意外だったのは、無料プランを含む全ユーザーに開放されたことだ。OpenAIが画像生成の最新モデルをFreeティアに出すのは初めてで、Googleの無料Gemini画像生成への対抗が透けて見える。
「考えてから描く」とはどういうことか
Images 2.0の最大の売りは、画像を生成する前にモデルが「思考」するThinkingモードだ。Plus、Pro、Businessプランで利用できる。
具体的には、プロンプトを受け取ったあとにWeb検索で参考情報を集め、生成結果をセルフチェックしてから出力する。1つのプロンプトから複数の画像を一括生成し、それぞれの整合性を確認することもできる。Sam Altmanは「GPT-3からGPT-5への飛躍に相当する」と表現しているが、これはさすがに言いすぎだろう。ただ、仕組みとしてはたしかに面白い。
画像生成AIは従来「テキストを入れたら即座に絵が出る」ものだった。Images 2.0は「テキストを入れたら、まず調べて考えてから絵を出す」に変わっている。たとえば「東京タワーの正確な夜景」と入れたとき、モデルが東京タワーの実際の外観をWeb検索で確認してから描く——という流れだ。
日本語ユーザーに一番刺さる変更点
正直に言えば、日本のユーザーにとって最もインパクトがあるのはThinkingモードではない。日本語テキストの描画品質だ。
これまでの画像生成AIは、日本語を書かせるとほぼ確実に文字が崩れた。ひらがなが別の文字になったり、漢字のパーツが入れ替わったり。OpenAI自身もこの問題を認識していて、Images 2.0では日本語、韓国語、ヒンディー語、ベンガル語といった非ラテン文字のレンダリングを重点的に改善したと発表している。
GIGAZINEの検証では、広告バナーやインフォグラフィックに日本語テキストをそのまま配置できるレベルに到達しているとのこと。「資料として使えるレベル」という評価は、DALL-E 3時代には絶対に出てこなかった。
これが本当に安定しているなら、ビジネス用途のハードルが一気に下がる。プレゼン資料のイメージ画像、SNS投稿の画像素材、ブログのアイキャッチ——日本語を含む画像を即座に生成できるだけで、実用の幅がまったく違う。
スペックの整理
主な変更点を並べる。
- 解像度: 最大2K対応。DALL-E 3の1024×1024から大幅に拡大
- アスペクト比: 3:1縦長、360°パノラマなど柔軟に対応
- マルチ画像一貫性: 同一キャラクターを複数画像にわたって維持可能
- QRコード生成: 実際に読み取れるQRコードを画像内に埋め込める
- API対応: gpt-image-2としてAPI経由でも利用可能
ベンチマーク面では、LMArena(旧Chatbot Arena)のImage Arenaで、Text-to-Image、Single-Image Edit、Multi-Image Editの3部門すべてで1位を獲得している。
プランごとの違い
| 機能 | Free / Go | Plus / Team | Pro / Business |
|---|---|---|---|
| 基本画像生成 | ○ | ○ | ○ |
| Thinkingモード | — | ○ | ○ |
| 高解像度出力 | — | ○ | ○ |
| API利用 | — | — | ○ |
無料プランでも基本機能は使える。ただしThinkingモードと高解像度はPlus以上(月$20〜)が必要。仕事で使うならPlusは最低限だろう。
DALL-E廃止のインパクト
見落としがちだが、DALL-E 2とDALL-E 3のAPI が5月12日に完全終了するのは結構大きい。カスタムGPTsでDALL-E 3を呼び出しているワークフローや、APIでDALL-E 3を使っているアプリは、すべてgpt-image-2への移行が必要になる。
GPTsについてはOpenAIが自動でImages 2.0に切り替えると案内しているが、API利用者は手動での移行が必要だ。あと20日しかない。
GPTsユーザーは注意が必要で、2025年にGPT-4oの画像生成が追加された際に、既存GPTsのDALL-E機能が自動で無効化された前例がある。設定画面を確認しておいたほうがいい。
率直な評価
いい点は多い。日本語テキストの改善は長年の弱点を解消しつつある。Thinkingモードのアイデアも、「生成前に調べる」という一手間で出力品質が上がるなら合理的だ。Image Arena 3冠もただの数字ではなく、ブラインドテストでユーザーに選ばれた結果だから信頼性がある。
一方で、懸念もある。
まず速度。Thinkingモードは検索と推論を挟む分、生成に時間がかかる。リアルタイムで大量の画像を回すワークフローには向かない。もう一つは、無料プランの制限が不透明なこと。生成回数のリミットが公表されておらず、実際に使ってみないと分からない。
そして、DALL-E 3 APIの廃止日が5月12日と短いのは、移行が間に合わない開発者が出そうだ。3か月程度の猶予があってもよかったのではないか。
何が実現できるようになるか
「日本語を崩さず描ける画像生成AI」が無料で使えるというのは、考えてみるとかなり大きな変化だ。
たとえば、個人ブロガーがアイキャッチ画像をChatGPTに「この記事の内容を表す画像を、タイトルのテキスト入りで作って」と頼む。今までは日本語テキストが崩れて使い物にならなかったが、Images 2.0なら実用に耐える画像が出てくる可能性がある。
Thinkingモードとの組み合わせで面白いのは、「事実に基づいた画像」が作れる点だ。製品のスペック表を画像化したり、統計データをインフォグラフィックにしたりする場面で、モデルがWeb検索で最新情報を確認してから描くなら、誤情報を含む画像が減る。
マルチ画像一貫性は、SNS運用で威力を発揮しそうだ。ブランドのマスコットキャラクターを複数の投稿画像で統一したい、という要望にようやく応えられるようになった。
画像生成AIの進化は止まっていない。DALL-Eという名前が消えるのは象徴的だが、その後継は着実に実用レベルに近づいている。
関連記事
OpenAIの次の画像生成AIがLMArenaに「覆面」で出現していた — GPT Image 2リーク情報のすべて
OpenAIの次世代画像生成モデル「GPT Image 2」がLMArenaで3つの匿名コードネームとしてテストされていた。リークで判明した性能、新アーキテクチャ、リリース時期の予測を整理する。
OpenAIが「個人向けAI CFO」を作っていたスタートアップを買った——10人と引き換えに何を得たのか
OpenAIが個人向けAI CFOを開発するHiro Financeを買収(アクハイヤー)。約10名のチームがOpenAIに合流。背景・狙い・ChatGPTがお金の話をする日を整理する。
ChatGPTにアップしたPDF、もう消えない — 静かに来た「Library」の実用価値
ChatGPTのLibrary機能はアップロード・生成ファイルを永続保存する。チャットが消えてもファイルは残る仕組み、対応プラン、GeminiのNotebooksやClaudeのProjectsとの違いを整理する。