FlowTune Media

画像生成AIにも「考えてから描く」時代 — Alibaba Wan 2.7のThinking Modeが面白い

画像生成AIにプロンプトを投げて「思っていたのと違う絵」が出てきた経験は、誰にでもあるはずだ。「赤いスポーツカーが朝焼けの海岸を走っている」と書いたのに、海岸が砂漠になり、スポーツカーが謎の2ドアセダンになる、あれだ。

Alibaba傘下のTongyi Labが4月6日にリリースしたWan 2.7は、この「解釈のズレ」に対して正面から向かっていった珍しいモデルだ。画像生成の前にモデルが一度立ち止まってプロンプトを"考える"。その仕組みが「Thinking Mode」と呼ばれている。

LLMで流行した「考えてから答える」発想が、画像・動画生成の領域にも持ち込まれた、と言い換えてもいい。

Thinking Modeで何が変わるのか

従来の画像生成モデルは、プロンプトを受け取ったら即座にノイズから画像を生成する。1回のフォワードパスで終わる。プロンプトの曖昧さも矛盾も、全部モデルの"解釈"任せだった。

Wan 2.7のThinking Modeは、ここにChain-of-Thought推論のステップを挟む。具体的には以下のような流れで動く。

  1. プロンプトを受け取る
  2. プロンプトを分解して構図、被写体、光源、色調、スタイルを論理的に整理する
  3. 整理した"設計図"に基づいて画像を生成する

つまり、プロンプト→画像、ではなく、プロンプト→思考→設計図→画像という順序に変わる。

ぱっと聞くとシンプルだが、画像生成にこれを入れるのは簡単な話ではない。LLMのchain-of-thoughtはテキストで推論するからログとして読めるが、画像生成モデルの"思考"は人間が直接解釈できる形で残りにくい。Tongyi Labはこの内部推論をどう扱っているかの詳細をまだ全部出していないが、fal.aiのWan 2.7ページでいくつかのプロンプト例を触ると、確かに「長くて複雑なプロンプト」に対する安定感が前世代のWan 2.6と比べて明確に上がっている。

スペックを並べる

数字で見ると、Wan 2.7がどこを強化してきたかが分かりやすい。

  • 画像生成:最大9枚のリファレンス画像、ピクセルレベルのローカル編集、グループ画像生成
  • 動画生成:テキスト-to-ビデオ、画像-to-ビデオ、リファレンス-to-ビデオ、動画編集
  • 音声:ネイティブ音声同期(リップシンク対応)
  • リアリズム:「千面(Thousand-faced)リアリズム」と呼ばれる複数人物の同時描画
  • テキストレンダリング:画像内への多言語テキスト描写の大幅改善
  • カラーコントロール:HEXカラーコードとratio指定によるブランドカラー再現

9枚のリファレンス画像を同時に渡せるのは地味にでかい。これまでの「1枚リファレンス + プロンプト」の組み合わせでは、キャラクターの一貫性や世界観の統一を保つのに限界があった。9枚あれば「前後ろから撮ったキャラクター、背景の雰囲気を示す2枚、光の方向の参考1枚、衣装ディテール3枚」というような指示ができる。

そして、first frame / last frameを指定した動画生成は、特に広告や商品動画の制作者にとって便利だ。「開始カットはこの画像、終了カットはこの画像、あとはAIが動きを作って」という指示がそのまま通る。

カラーコントロールが商品撮影を変える

Wan 2.7で個人的に注目しているのは、カラーコントロールの精度だ。

広告・商品撮影の現場で生成AIが本格採用されない最大の理由は、ブランドカラーの再現性だった。「Pantone 185 Cの赤で頼みます」と言われても、従来の画像生成AIは「それっぽい赤」しか出せなかった。微妙に朱色寄りになったり、ピンクに寄ったりする。

Wan 2.7はHEXカラーコードとratio指定を直接プロンプトに組み込める。#E30613 を75%使って、#FFFFFFを25%、といった指定が可能になっている。これがどこまで厳密に反映されるかは実務での検証待ちだが、仕様として「ブランドマネージャーが見て確認できる解像度」のカラー指定に踏み込んだのは大きな前進だ。

日本のEC事業者やD2Cブランドにとっては、これが使えるなら撮影コストの構造が変わる。スタジオ撮影→ライティング調整→ポスト処理、という3ステップが、プロンプトの一発書きに近づく。

HappyHorseとの関係、Qwenとの関係

ここで混乱しがちなのが、Alibabaが最近出している他のモデルとの位置関係だ。整理しておく。

  • HappyHorse-1.0 — Alibaba傘下Taotian Group(Future Life Lab)の動画生成モデル。15Bパラメータ、Apache 2.0で公開。元Klingの技術責任者がリード。
  • Wan 2.7 — Alibaba Tongyi Lab(同じAlibabaクラウド配下の研究所)の画像+動画生成モデル。Thinking Mode搭載、商用サードパーティAPI経由で利用。
  • Qwen 3.6 Plus — 同じくAlibaba系列のLLM。エージェント用途に強い。

同じAlibabaグループ内で複数の研究所がそれぞれ独自のフラッグシップを持っているのは、GoogleのDeepMindとGoogle Researchの関係に近い。中で競わせて最強のものを採用する戦略なのか、単に各ラボが好きにやっているのかは外からは見えない。ただ結果として、中国側のAI開発は一つの会社の中でも複数の強い研究拠点が並走していて、動画生成・画像生成・LLMのそれぞれで別々にフロンティアを更新している。

Wan 2.7は「画像生成と動画生成を統合した1モデル」として設計されている点で、用途が重なりやすいHappyHorseとは少しズレている。HappyHorseは動画単体のモデルだが、Wan 2.7は画像からシームレスに動画まで繋げる用途を想定している。

日本から触る方法

Wan 2.7はAlibaba Cloudの公式ページ経由のほか、複数のサードパーティが即日APIを公開している。日本から最速で触る場合の選択肢を並べておく。

fal.ai — 画像・動画生成の汎用プラットフォーム。Wan 2.7のテキスト-to-ビデオ、画像-to-ビデオを提供。従量課金で、試すだけなら数百円で済む。UI上でプロンプトを叩いてそのまま生成できるので、API書かずに手触りを掴みたいときはここが一番早い。

Kie.ai — Wan 2.7のT2V、I2V、R2V(リファレンス-to-ビデオ)、動画編集を全部カバー。APIドキュメントが丁寧で、プロダクション組み込みを想定するならこちら。

Together AI — API経由での呼び出しに対応。Pythonクライアントライブラリが用意されており、QiitaのAlibaba Wan 2.7入門記事で実装例を読める。

料金は各プロバイダーで微妙に違うが、動画1本あたりおおむね数十円〜数百円のレンジだ。一度の生成が重いので、試行錯誤するなら短いクリップから始めるのが賢い。

気になる点

もちろん課題もある。

まず、Thinking Modeのレイテンシ。プロンプトを内部で推論してから生成するので、当然1枚あたりの生成時間は伸びる。サンプルでは5〜15秒ほど延びる印象で、バッチで数百枚処理するような用途では効いてくる。

次に、日本語テキストの画像内レンダリング。多言語対応を謳っているが、複雑な漢字やレイアウトの再現は現時点でも完璧ではない。ポスターや商品ラベルに埋め込む日本語テキストは、出力後に別ソフトで差し替える運用になる場面が多そうだ。

そして、中国発モデルの地政学リスク。中国企業のAIモデルを業務利用する判断は、企業ごとに事情が違う。データ取り扱い、輸出規制、クライアントの受容性を考えると、「技術的には最高でも採用できない」現場もある。Wan 2.7はオープンウェイトでは公開されていない(APIのみ)ため、自前ホスティングで機密性を確保するという逃げ道もない。この点は、同じAlibaba系列でもオープンソースのHappyHorse-1.0とは判断軸が変わる。

Kling、Veo、Seedanceとどう使い分けるか

2026年4月時点で、動画生成AIの選択肢は過剰なほどある。ざっくりと使い分けの指針を書いておくと:

  • Kling 3:長尺、物理挙動の自然さが強み。中国Kuaishou製
  • Veo 3.1 / Veo 3.1 Lite:Google Workspace連携、Google Vids統合。コスト重視ならLite
  • Seedance 2.0 BytanceDance:商用利用のライセンスと運用の柔軟性
  • HappyHorse-1.0:オープンソース、自社GPUでフル制御、Apache 2.0
  • Wan 2.7:画像と動画の統合、Thinking Modeによるプロンプト解釈力、カラーコントロール

「ブランドカラーや細かい指示通りに動画を作りたい」ならWan 2.7。「手元のGPUで料金を気にせず回したい」ならHappyHorse。「既存のGoogle Workspace環境に組み込みたい」ならVeo 3.1。最適解は用途で変わる。

まとめ

Wan 2.7を一言で言えば、「画像生成にLLMの推論パラダイムを持ち込んだモデル」だ。

Thinking Modeそのものは、一度LLMで成功した発想を別のモダリティに移植した形だから、技術的な飛躍としては意外性が少ない。ただ、画像生成の現場で最大の悩みだった「プロンプトの解釈ズレ」に正面から向き合った点は、実務の人から見るとはっきり価値がある。

広告、EC、商品撮影、ブランディングといった「ブレが許されない画像」を扱う現場では、Wan 2.7は一度触っておく価値がある。Thinking Modeが自分の仕事をどれだけ楽にするかは、他のどの指標より、実際のプロンプトをぶつけて確かめるのが早い。

まずはfal.aiで数百円試すところから始めるといい。

関連記事