FlowTune Media

参照画像を混ぜるだけで一貫した動画が作れる — 中国発AI動画モデル「Vidu Q3」の新機能

AI動画生成ツールで一番むずかしいのは、「同じキャラクターを、別のシーンで、同じ顔のまま動かすこと」だ。

プロンプトを少し変えるだけで顔が変わる、服装が入れ替わる、背景が勝手に差し替わる——AIで動画を作ったことがある人なら、この「一貫性が崩れる問題」を必ず一度は踏み抜いている。キャラクター、衣装、プロップ、背景のスタイルを、複数ショットにまたがって保ち続けるのは、現状の動画生成モデルにとって鬼門のままだ。

中国のAI動画スタートアップShengShu Technologyが、この問題に正面から殴り込みをかけた。2026年4月13日、同社は新機能「Vidu Q3 Reference-to-Video」のグローバル提供を開始した。一言でいえば「複数の参照画像をまとめて投げ込むと、それらをちゃんと組み合わせた一貫動画が出てくる」機能である。

Reference-to-Video が普通の text-to-video と違うところ

これまでのAI動画生成は、大きく2つの入力モードが主流だった。1つ目は text-to-video(文章だけで生成)、2つ目は image-to-video(1枚の画像を動かす)だ。Vidu Q3のReference-to-Videoはその先にある、複数参照画像を同時に受け取って混ぜ合わせる生成モードだと捉えるとわかりやすい。

具体的には、以下のような入力に対応する。

  • キャラクター参照: この顔の人物を動画に登場させる
  • 環境参照: この背景の場所で撮影されたように見せる
  • 衣装参照: この服を着せる
  • プロップ参照: この小道具を持たせる
  • スタイル参照: この色味・質感のルックで仕上げる

これらを同時にプロンプトと組み合わせることで、「赤いバラを持った青いドレスの女性が、東京の夕暮れの街角を歩く」のようなシーンを、指定した参照画像のビジュアル要素を保ったまま生成できる。

Midjourneyの --cref(キャラクター参照)やFlux Kontextの参照機能に近いものをイメージしてもらえばいい。違うのは、これが静止画ではなく動画に適用される点だ。そして、参照を1つではなく複数種類まとめて投げられる点でもある。

動画の長さはネイティブで16秒に対応。音声も同時生成するので、動画と音(環境音やちょっとしたSE)が最初から同期した状態で出てくる。

なぜ今これが注目されるのか

率直に言えば、Vidu単体のスペックだけを見るなら、競合のKling 3.0やSeedance 2.0の方が一部の指標で上を行っている。にもかかわらずVidu Q3が注目されているのは、実務のワークフローに素直に噛み合う入力インタフェースだからだ。

AI動画を仕事で使うクリエイターの最大の悩みは「納品物として成立するか」である。広告案件でもMV制作でも、クライアントは「同じ主人公を複数カットで」「ブランドカラーを維持して」「商品を同じ形で登場させて」と要求してくる。text-to-videoだけではこれに応えられず、従来は1カットずつ泥臭く微調整してつなぐ必要があった。

Reference-to-Videoは、その制約をハードコードで解決しにきている。参照画像を用意する手間はあるが、逆に言えば「最初に素材を揃えれば、後は破綻しない」という前提が成り立つ。これは動画生成を「遊びの道具」から「業務の道具」にずらす変化に見える。

ShengShuの資金力と動き

直前の4月10日には、ShengShuはAlibaba Cloud主導のシリーズBで**20億人民元(約430億円)**を調達している。中国のAI動画分野では突出した規模の調達で、Alibabaがどこに本気で賭けているかが読める数字だ。

ShengShu自身は「World Generation Model(WGM)」と「World Action Model(WAM)」という2本柱の戦略を掲げていて、Viduは前者のWGMに位置する。WGMはデジタル空間での映像・コンテンツ生成を担い、WAMはフィジカルな世界での行動生成(ロボティクス、シミュレーション)を担う——つまり最終ゴールは「ひとつのAIで仮想世界も物理世界も動かす」というGeneral World Modelだ。

Viduはその「仮想世界側の窓口」として最前線に立っている、という位置づけになる。Q3はまだその途中段階の成果物なので、数ヶ月単位でQ4、Q5とアップデートが続く前提で見ておいた方がいい。

実際にどこで使えるのか

Vidu Q3 Reference-to-Videoは、以下のルートで利用できる。

  1. Vidu公式サイト(SaaSウェブアプリ)
  2. Vidu API(MaaS提供)
  3. Alibaba Cloud Model Studio — Alibabaのクラウド経由でモデルを叩ける
  4. Vidu Agent / Vidu Claw / Vidu App — ShengShu自身のプロダクトライン全体に統合
  5. WaveSpeedAI — サードパーティの推論プラットフォーム経由でも提供

日本からのアクセスに関しては、Vidu本体はグローバル展開済みでクレジットカード決済にも対応している。中国発AIプロダクトでよくある「日本からのサインアップで弾かれる」問題もViduは比較的軽く、使える状態だ。

正直な評価

良い点と微妙な点を、それぞれ書いておきたい。

良い点:

  • 参照画像インタフェースが実務寄り。「この人物を、この服で、この背景で動かす」をワンショットで指定できるのは、制作現場の発想そのもの
  • 音声同期が最初から組み込まれている。別途BGMやSEをミックスする工程を1段省ける
  • Alibaba Cloud経由でスケール運用しやすい。エンタープライズで量産する前提のインフラが整っている
  • 中国勢の中では国際展開に積極的。英語ドキュメント、海外決済、サードパーティ統合と、触りやすさの配慮が他の中国AI動画モデルより明確に一段上

微妙な点:

  • 純粋な映像クオリティでは、細部でKling 3.0やVeo 3.1に一歩譲る場面がある。Reference-to-Videoという機能の面白さで勝負している面が強い
  • 16秒という動画長は、2026年の水準では「まあ普通」。Kling 3.0が5分、LTX-2が4K同期音付きなどが出ている中で、尺の短さは相対的に見劣りする
  • 参照画像を使う副作用として、「参照に引っ張られすぎる」生成結果になることがある。指示した動きよりも参照画像の見た目を優先してしまうケースが、早期レビューで散見される
  • 著作権・モデル学習データの透明性は中国AIモデル共通の懸念。商用案件で使う際は、生成物の権利処理を自社で確認する必要がある

この機能があると何が変わるか

筆者が見ている範囲で、Reference-to-Videoが実用レベルで普及したときに変わりそうなことを2つ挙げておく。

ひとつは、広告のA/Bテスト用動画の生産性。同じキャラクター・同じ商品・同じトーンで、「背景だけ5パターン」「服装だけ3パターン」を量産するのが、参照画像を差し替えるだけで済むようになる。実写撮影では数十万円〜数百万円かかる差分バリエーションの撮り直しが、数百円〜数千円の生成コストで回せる。広告運用チームが生成AIで動画を大量生成する流れは、Reference-to-Videoで一段加速する可能性が高い。

もうひとつは、縦型ショート動画のキャラクタービジネス。TikTokやInstagramのリールで、AI生成キャラクターが継続的にコンテンツを出し続ける「バーチャル・インフルエンサー運営」は、すでに一部で事業化されている。これまでは「同じキャラを保つ」ためにLoRAやControlNetを回す専門チームが必要だったが、Reference-to-Videoがそこを肩代わりすると、個人や小規模チームでもキャラクターIP運営に参入できるようになる。この領域、日本からはあまり見えていないが、海外では月商数百万円規模で動いているケースがもう出ている。

まだ完成品ではないが、見る価値はある

正直なところ、Vidu Q3はまだ発展途上のプロダクトだ。映像クオリティで全業界を塗り替えるレベルかといえば、そこまでではない。Kling 3.0の絵の強さ、Seedance 2.0のモーションの自然さ、Veo 3.1のカメラワーク表現——それぞれの強みと勝負して、Viduが全面勝利しているわけではない。

それでも、Reference-to-Videoという「実務の入力インタフェース」に振り切った設計思想は、他のモデルと明確に差別化されている。AI動画を「作品」ではなく「コンテンツ納品物」として使う層にとって、この方向性は確実に刺さる。

今後のアップデートで映像クオリティが追いついてくれば、「企業の動画制作ツールとしてはViduを最初に試す」という選択肢が成立するかもしれない。2026年の後半、中国勢と米国勢のAI動画競争がどう動くかを見るうえでも、Viduは外せない1社になってきた。

関連記事