JSONで画像を設計する — オープンウェイトで登場したIdeogram 4の異質なアプローチ
画像生成AIに「もう少し右に文字を置いて」と頼んで、意図通りの結果が返ってきた経験がある人はどれくらいいるだろう。大抵は何度かリトライして、妥協するか、結局Figmaで手作業する。
6月3日にオープンウェイトで公開されたIdeogram 4は、この問題に対して他と全く違うアプローチを取った。プロンプトをJSON形式で書く。テキストの位置をバウンディングボックスの座標で指定し、カラーパレットをHEXコードで渡す。言葉で「雰囲気」を伝えるのではなく、仕様書のように「設計」する。
9.3Bパラメータのオープンウェイト
まず前提を整理しておく。Ideogram 4は、カナダのIdeogramが公開した初のオープンウェイトモデルだ。パラメータ数は93億。34層のDiffusion Transformer(DiT)アーキテクチャで、テキストと画像のトークンが各層で同じ投影を共有する設計になっている。
ウェイトはHugging Faceでfp8とnf4の2形式で公開されており、ライセンス条件を満たせば自分のGPUで動かせる。DesignArenaのリーダーボードではオープンウェイトモデルの中で1位を獲得し、10人のプロデザイナーによるブラインド評価でも47.9%のファーストチョイス率を記録した。
技術的に注目すべきは、テキストエンコーダにCLIPでもT5でもなくQwen3-VL-8B-Instruct(Alibabaのビジョンランゲージモデル)を統合している点だ。これにより日本語の漢字とひらがなが混在するテキストも比較的正確に描画できると報告されている。画像生成AIにおける日本語テキスト描画は長年の弱点だったので、ここは素直に評価したい。
JSONプロンプトが変えるもの
Ideogram 4の最大の差別化は、構造化JSONプロンプトだ。
従来の画像生成AIでは「赤い看板に白い文字で"SALE"と書いてある店舗の写真」のように自然言語で描写する。結果は毎回微妙に違い、テキストの位置や色は運任せになりがちだ。
Ideogram 4では、これをJSONで記述する。スタイルブロックで全体のトーンを指定し、オブジェクトごとにバウンディングボックス座標を割り当て、テキスト要素は最大6つまで位置とフォントを個別に指定できる。カラーパレットは16色までHEXで渡せる。
つまり、広告バナーやポスターの制作で「ここにこのサイズで、この色のテキストを配置する」という指示がそのまま通る。デザイナーがFigmaで作ったカンプの座標をそのまま入力すれば、ほぼそのレイアウトで画像が生成される。
もちろん、毎回JSONを手書きするのは現実的ではない。Ideogram 4にはmagic promptという機能があり、通常の自然言語プロンプトをLLMが内部でJSON形式に変換してから生成する。カジュアルに使いたいときはこちらで十分だ。
正直な評価: 何が強くて、何が足りないか
強い点。 テキスト描画の精度は、現時点のオープンウェイトモデルの中では最高水準だ。看板、ロゴ、キャプション、ウォーターマークなど、テキストを含む画像の生成で他を明確にリードしている。バウンディングボックスによるレイアウト制御も、広告やバナーのようにピクセル単位の配置が求められるユースケースで威力を発揮する。
微妙な点。 まず、オープンウェイトとはいえ制限がある。商用利用にはIdeogramのライセンス条件を確認する必要がある。また、9.3Bパラメータはオープンウェイト画像モデルとしては大きく、ローカル実行にはそれなりのGPUが要る。fp8で動かすにしても、VRAM 24GB以上は見ておいたほうがいい。
もうひとつ、JSON構造化プロンプトは強力だが、「何となくいい感じの画像」を生成するには向いていない。Midjourneyのように短いプロンプトから想像を超えるビジュアルを出すタイプではなく、「仕様通りの画像を確実に出す」ツールだ。用途が違う。
料金: APIなら1枚2.5セントから
Ideogramのクラウドサービスでの料金体系は以下の通り。
- Free: 1日10枚(低速キュー。生成画像は公開される)
- Basic: $8/月(400クレジット)
- Plus: $20/月(1,000クレジット)
- Pro: $48/月(3,200クレジット + API利用可)
注意点として、Ideogram 4のQualityモードで1枚生成するのに6クレジットかかる。つまりPlusプラン(1,000クレジット)では月に約166枚。大量生成が必要なら、APIの従量課金($0.025〜$0.10/枚)のほうが効率的だ。
デザインパイプラインに組み込む可能性
Ideogram 4の本当の価値は、画像生成をプログラマブルにした点にある。
JSONでプロンプトを構造化できるということは、コードから直接画像を生成するパイプラインが組める。たとえばECサイトの商品バナーを、商品名・価格・カラーコードをデータベースから引いて自動生成する。あるいはSNS投稿用のOGP画像を、記事タイトルとアイキャッチ写真から定型テンプレートで量産する。
ここまでは既存のCanva APIやFigma APIでもできた。違いは、Ideogram 4がゼロからビジュアルを生成できることだ。テンプレートに当てはめるのではなく、JSONの仕様に沿った画像をその場で作る。テンプレートの制約から解放される分、デザインの自由度は大幅に上がる。
オープンウェイトで公開されたことで、自社サーバーで完結するワークフローも構築可能だ。機密性の高いブランド素材を外部APIに送りたくない企業にとって、これは大きい。
Midjourney・FLUXとの棲み分け
画像生成AIは「何を生成するか」ではなく「どう使うか」で棲み分けが進んでいる。
Midjourney V8は、短いプロンプトから美しいビジュアルを引き出す「アーティスト向けツール」としての地位を固めた。FLUX.2はフォトリアリズムに特化し、写真と見分けがつかない画像を高速に生成する。
Ideogram 4は「デザイナーとエンジニアの中間」に位置する。JSONで仕様を書いてプログラマブルに制御できる点はエンジニアに刺さるし、テキスト描画の精度はデザイナーの実務に耐える。逆に、アート性の高いビジュアルを「感覚的に」引き出す用途ではMidjourneyに分がある。
選び方は明快だ。テキスト入りのバナーやポスターなら Ideogram 4。写真素材のような画像ならFLUX.2。インスピレーション重視のビジュアル探索ならMidjourney。全部を1つで賄おうとすると、どれも中途半端になる。
関連記事
「きれいな画像」ではなく「美しい画像」を出すAI — Krea 2が選んだMidjourneyと真逆のアプローチ
Krea独自の画像AI基盤モデル「Krea 2(K2)」をレビュー。ムードボード・スタイル制御・15秒生成の実力と料金を解説。
Midjourney V8 vs FLUX 2 Max — 同じプロンプトで生成したら「得意分野」がまるで違った【2026年版】
Midjourney V8とFLUX 2 Maxを同一プロンプトで比較。画質・料金・商用利用・日本語対応の違いを実例付きで解説。
DALL-E終了、後継は「考えてから描く」 — ChatGPT Images 2.0で何が変わるのか
OpenAIがChatGPT Images 2.0を正式リリース。DALL-Eは5月12日で廃止される。Thinkingモード、日本語テキスト描画、2K解像度など新機能の実力を整理する。