参照画像を混ぜるだけで一貫した動画が作れる — 中国発AI動画モデル「Vidu Q3」の新機能
AI動画生成ツールで一番むずかしいのは、「同じキャラクターを、別のシーンで、同じ顔のまま動かすこと」だ。
プロンプトを少し変えるだけで顔が変わる、服装が入れ替わる、背景が勝手に差し替わる——AIで動画を作ったことがある人なら、この「一貫性が崩れる問題」を必ず一度は踏み抜いている。キャラクター、衣装、プロップ、背景のスタイルを、複数ショットにまたがって保ち続けるのは、現状の動画生成モデルにとって鬼門のままだ。
中国のAI動画スタートアップShengShu Technologyが、この問題に正面から殴り込みをかけた。2026年4月13日、同社は新機能「Vidu Q3 Reference-to-Video」のグローバル提供を開始した。一言でいえば「複数の参照画像をまとめて投げ込むと、それらをちゃんと組み合わせた一貫動画が出てくる」機能である。
Reference-to-Video が普通の text-to-video と違うところ
これまでのAI動画生成は、大きく2つの入力モードが主流だった。1つ目は text-to-video(文章だけで生成)、2つ目は image-to-video(1枚の画像を動かす)だ。Vidu Q3のReference-to-Videoはその先にある、複数参照画像を同時に受け取って混ぜ合わせる生成モードだと捉えるとわかりやすい。
具体的には、以下のような入力に対応する。
- キャラクター参照: この顔の人物を動画に登場させる
- 環境参照: この背景の場所で撮影されたように見せる
- 衣装参照: この服を着せる
- プロップ参照: この小道具を持たせる
- スタイル参照: この色味・質感のルックで仕上げる
これらを同時にプロンプトと組み合わせることで、「赤いバラを持った青いドレスの女性が、東京の夕暮れの街角を歩く」のようなシーンを、指定した参照画像のビジュアル要素を保ったまま生成できる。
Midjourneyの --cref(キャラクター参照)やFlux Kontextの参照機能に近いものをイメージしてもらえばいい。違うのは、これが静止画ではなく動画に適用される点だ。そして、参照を1つではなく複数種類まとめて投げられる点でもある。
動画の長さはネイティブで16秒に対応。音声も同時生成するので、動画と音(環境音やちょっとしたSE)が最初から同期した状態で出てくる。
なぜ今これが注目されるのか
率直に言えば、Vidu単体のスペックだけを見るなら、競合のKling 3.0やSeedance 2.0の方が一部の指標で上を行っている。にもかかわらずVidu Q3が注目されているのは、実務のワークフローに素直に噛み合う入力インタフェースだからだ。
AI動画を仕事で使うクリエイターの最大の悩みは「納品物として成立するか」である。広告案件でもMV制作でも、クライアントは「同じ主人公を複数カットで」「ブランドカラーを維持して」「商品を同じ形で登場させて」と要求してくる。text-to-videoだけではこれに応えられず、従来は1カットずつ泥臭く微調整してつなぐ必要があった。
Reference-to-Videoは、その制約をハードコードで解決しにきている。参照画像を用意する手間はあるが、逆に言えば「最初に素材を揃えれば、後は破綻しない」という前提が成り立つ。これは動画生成を「遊びの道具」から「業務の道具」にずらす変化に見える。
ShengShuの資金力と動き
直前の4月10日には、ShengShuはAlibaba Cloud主導のシリーズBで**20億人民元(約430億円)**を調達している。中国のAI動画分野では突出した規模の調達で、Alibabaがどこに本気で賭けているかが読める数字だ。
ShengShu自身は「World Generation Model(WGM)」と「World Action Model(WAM)」という2本柱の戦略を掲げていて、Viduは前者のWGMに位置する。WGMはデジタル空間での映像・コンテンツ生成を担い、WAMはフィジカルな世界での行動生成(ロボティクス、シミュレーション)を担う——つまり最終ゴールは「ひとつのAIで仮想世界も物理世界も動かす」というGeneral World Modelだ。
Viduはその「仮想世界側の窓口」として最前線に立っている、という位置づけになる。Q3はまだその途中段階の成果物なので、数ヶ月単位でQ4、Q5とアップデートが続く前提で見ておいた方がいい。
実際にどこで使えるのか
Vidu Q3 Reference-to-Videoは、以下のルートで利用できる。
- Vidu公式サイト(SaaSウェブアプリ)
- Vidu API(MaaS提供)
- Alibaba Cloud Model Studio — Alibabaのクラウド経由でモデルを叩ける
- Vidu Agent / Vidu Claw / Vidu App — ShengShu自身のプロダクトライン全体に統合
- WaveSpeedAI — サードパーティの推論プラットフォーム経由でも提供
日本からのアクセスに関しては、Vidu本体はグローバル展開済みでクレジットカード決済にも対応している。中国発AIプロダクトでよくある「日本からのサインアップで弾かれる」問題もViduは比較的軽く、使える状態だ。
正直な評価
良い点と微妙な点を、それぞれ書いておきたい。
良い点:
- 参照画像インタフェースが実務寄り。「この人物を、この服で、この背景で動かす」をワンショットで指定できるのは、制作現場の発想そのもの
- 音声同期が最初から組み込まれている。別途BGMやSEをミックスする工程を1段省ける
- Alibaba Cloud経由でスケール運用しやすい。エンタープライズで量産する前提のインフラが整っている
- 中国勢の中では国際展開に積極的。英語ドキュメント、海外決済、サードパーティ統合と、触りやすさの配慮が他の中国AI動画モデルより明確に一段上
微妙な点:
- 純粋な映像クオリティでは、細部でKling 3.0やVeo 3.1に一歩譲る場面がある。Reference-to-Videoという機能の面白さで勝負している面が強い
- 16秒という動画長は、2026年の水準では「まあ普通」。Kling 3.0が5分、LTX-2が4K同期音付きなどが出ている中で、尺の短さは相対的に見劣りする
- 参照画像を使う副作用として、「参照に引っ張られすぎる」生成結果になることがある。指示した動きよりも参照画像の見た目を優先してしまうケースが、早期レビューで散見される
- 著作権・モデル学習データの透明性は中国AIモデル共通の懸念。商用案件で使う際は、生成物の権利処理を自社で確認する必要がある
この機能があると何が変わるか
筆者が見ている範囲で、Reference-to-Videoが実用レベルで普及したときに変わりそうなことを2つ挙げておく。
ひとつは、広告のA/Bテスト用動画の生産性。同じキャラクター・同じ商品・同じトーンで、「背景だけ5パターン」「服装だけ3パターン」を量産するのが、参照画像を差し替えるだけで済むようになる。実写撮影では数十万円〜数百万円かかる差分バリエーションの撮り直しが、数百円〜数千円の生成コストで回せる。広告運用チームが生成AIで動画を大量生成する流れは、Reference-to-Videoで一段加速する可能性が高い。
もうひとつは、縦型ショート動画のキャラクタービジネス。TikTokやInstagramのリールで、AI生成キャラクターが継続的にコンテンツを出し続ける「バーチャル・インフルエンサー運営」は、すでに一部で事業化されている。これまでは「同じキャラを保つ」ためにLoRAやControlNetを回す専門チームが必要だったが、Reference-to-Videoがそこを肩代わりすると、個人や小規模チームでもキャラクターIP運営に参入できるようになる。この領域、日本からはあまり見えていないが、海外では月商数百万円規模で動いているケースがもう出ている。
まだ完成品ではないが、見る価値はある
正直なところ、Vidu Q3はまだ発展途上のプロダクトだ。映像クオリティで全業界を塗り替えるレベルかといえば、そこまでではない。Kling 3.0の絵の強さ、Seedance 2.0のモーションの自然さ、Veo 3.1のカメラワーク表現——それぞれの強みと勝負して、Viduが全面勝利しているわけではない。
それでも、Reference-to-Videoという「実務の入力インタフェース」に振り切った設計思想は、他のモデルと明確に差別化されている。AI動画を「作品」ではなく「コンテンツ納品物」として使う層にとって、この方向性は確実に刺さる。
今後のアップデートで映像クオリティが追いついてくれば、「企業の動画制作ツールとしてはViduを最初に試す」という選択肢が成立するかもしれない。2026年の後半、中国勢と米国勢のAI動画競争がどう動くかを見るうえでも、Viduは外せない1社になってきた。
関連記事
画像生成AIにも「考えてから描く」時代 — Alibaba Wan 2.7のThinking Modeが面白い
Alibabaの新モデルWan 2.7を解説。プロンプトを推論してから生成するThinking Mode、千面リアリズム、9枚リファレンス画像対応など、画像・動画生成の新しい切り口を整理する。
PikaStream 1.0 — AIの「自分」がGoogle Meetに出席する時代、$0.275/分の代理出席は何を変えるか
Pika LabsのPikaStream 1.0は、AIアバターがあなたの代わりにGoogle Meetに参加するリアルタイム動画モデル。仕組み、料金、倫理的な問題点を解説する。
スタンフォードが400ページの「AIの今」を出した — 2026年版AI Indexで見えた7つの変化
スタンフォードHAIが2026年4月13日に公開した最新AI Indexレポートを読み解く。米中性能差ほぼ消滅、推論コスト280倍減、Q1投資2858億ドルなど、業界の輪郭を変える数字を整理する。