FLUX.2 — 「写真にしか見えないAI画像」の新基準。Midjourney・DALL-Eとの立ち位置を整理する
AI画像生成の世界で、ひとつの基準が変わった。
Black Forest Labsが2026年初頭にリリースしたFLUX.2は、「AIが作った画像」と「カメラで撮った写真」の境界を事実上消した。被写界深度、レンズの歪み、色収差、フィルムグレイン——一眼レフの光学特性をプロンプトで制御できる。肌のテクスチャは毛穴まで再現され、照明のムラや自然なポージングは他モデルが追いつけていない。
これはStable Diffusionの系譜を継ぐオープンウェイトモデルとしては異例の完成度だ。
4つのバリアント、4つの使い方
FLUX.2はモノリシックな1モデルではなく、用途別に4つのバリアントで構成されている。
FLUX.2 Pro — 最高品質。4メガピクセル(2048x2048相当)のネイティブ解像度で、商用レベルのフォトリアリスティック画像を生成する。マルチリファレンスシステムで最大10枚の参照画像を同時に入力し、ブランドの一貫性を保った大量生成が可能。APIでの利用が基本。
FLUX.2 Dev — オープンウェイトモデル。Hugging Faceからダウンロードでき、ローカルで動かせる。ComfyUIやA1111との統合も進んでいる。研究・個人利用向けだが、品質はProに肉薄する。
FLUX.2 Flex — 画像編集特化。インペインティング、アウトペインティング、スタイル変換をAPIで提供する。生成だけでなく「既存画像の部分修正」に強い。
FLUX.2 Klein — 軽量バリアント。ローカル推論向けに最適化されており、NVIDIA RTX 4090なら数秒で画像を出せる。NVIDIAとの協業でRTXに最適化されたFP8量子化モデルも公開されており、VRAM消費を40%削減しつつ性能を維持する。
10秒以下の生成速度
FLUX.2のもうひとつの売りはスピードだ。
Pro版で10秒以下、Klein版ならRTX搭載PCで数秒。FLUX.1からの改善幅は3〜5倍で、実用的な「待ち時間」がほぼなくなった。大量のバリエーションを試すワークフローでは、この速度差は生産性に直結する。
32Bパラメータのフルモデルはロードに90GB VRAMが必要だが、FP8量子化版なら24GB程度で動く。RTX 4090ユーザーなら十分実用的だ。
テキスト描画が実用レベルに
AI画像生成の長年の弱点だった「画像内のテキスト」が、FLUX.2ではかなり改善されている。
ロゴ、ポスター、看板、パッケージデザインなど、文字が入る画像の生成は従来モデルでは崩壊しがちだった。FLUX.2 Proでは、短いテキストならほぼ正確にレンダリングされる。長文や小さい文字はまだ弱いが、マーケティング素材レベルの品質は出せるようになった。
Midjourney V8、DALL-Eとの使い分け
2026年4月現在、画像生成AIの三つ巴は「Midjourney V8 / FLUX.2 / GPT Image(DALL-E後継)」だ。それぞれ得意分野が明確に分かれている。
フォトリアリズムならFLUX.2。 人物写真、商品写真、建築ビジュアライゼーションなど「本物に見える画像」が必要ならFLUX.2が最適解。カメラの光学特性まで再現するレベルは他にない。
アート・美的表現ならMidjourney V8。 スクロールを止めるビジュアル、SNS映え、ブランドイメージの構築。Midjourneyの美的センスは依然として最強で、「1枚の完璧な絵」を追求するならV8のHDモードが最も満足度が高い。
手軽さ・汎用性ならGPT Image。 ChatGPTから直接生成でき、テキストプロンプトへの対応幅が最も広い。最高品質ではないが、拒否率が低く、あらゆるジャンルで安定して「まあまあ良い画像」を出す。初心者にはこれが一番使いやすい。
正直に言えば、「最高の1枚」を出す能力ではMidjourneyにまだ分がある場面も多い。だがFLUX.2の強みは「写真」のリアリズムに特化した精度と、オープンウェイトでローカル実行できる自由度にある。商用利用でStockフォトの代替を考えているなら、FLUX.2 Proが最も現実的な選択肢だ。
微妙な点
万能ではない。いくつか気になる点がある。
まず、フルモデルの重さ。32Bパラメータは2026年の画像生成モデルとしては大きく、ローカル実行のハードルが高い。量子化版でも24GB VRAMは必須で、MacBook Proで気軽に回すというわけにはいかない。
次に、アニメ・イラスト系への適性はMidjourneyに劣る。FLUX.2の強みはあくまでフォトリアリスティック方向であり、スタイライズされたイラストではプロンプトの工夫が必要になる。
そして料金。API経由のPro版は従量課金で、大量生成するとコストがかさむ。Midjourney(月$10〜$60)やChatGPT Plus(月$20でGPT Imageが使い放題に近い)と比べると、ランニングコストの見通しが立てにくい。
ローカルで動かすなら
FLUX.2の最大の差別化ポイントは、Dev/Klein版がオープンウェイトで公開されていることだ。Hugging Faceからダウンロードし、ComfyUIなどのローカル環境で動かせる。
NVIDIA RTXユーザーなら、RTX AI Garageの最適化パイプラインを使うことで、FP8量子化によるVRAM削減と高速推論を両立できる。RTX 4090で10秒以下、RTX 5090ならさらに速い。
クラウドに画像データを送りたくない用途——社内資料、医療画像、未発表製品のビジュアライゼーション——では、ローカル実行できるFLUX.2 Devの存在は決定的な強みになる。
関連記事
HeyGen Avatar V — 15秒の自撮りから「もう一人の自分」を作る。identity driftを克服した第5世代モデルの技術と使いどころ
HeyGenのAvatar Vは15秒の録画からフォトリアルなデジタルツインを生成するAIアバターモデル。175言語リップシンク、identity drift解消の仕組み、料金を解説。
Luma Agents — 複数のAIモデルを束ねるクリエイティブエージェントは広告制作を変えるか
Luma Agentsの仕組みと対応モデル一覧を解説。複数のAI生成モデルを自動選択・連携するクリエイティブエージェントの実力と懸念点がわかる
Mistral Vibe 2.0レビュー — 月額$15のターミナルAIコーディングは、Claude Codeの対抗馬になるか
Mistral Vibe 2.0を数週間使った率直なレビュー。月額$15のCLIコーディングエージェントをClaude CodeやCodex CLIと比較して実力を検証する