FlowTune Media

10秒が限界だったAI動画が、一気に30秒へ — Seedance 2.5が映像と音を同時に生成する仕組み

AI動画生成の世界には、ずっと「10秒の壁」があった。

KlingもRunwayもSeedance 2.0も、1回の生成で出てくるのはせいぜい5〜15秒。CMの1カットやSNSの冒頭には使えても、1つのシーンをまるごと作るには足りない。複数クリップをつなげば長くはなるが、カット間で人物の顔が変わったり、背景の色味がズレたりする。「つなぎ目問題」はAI動画最大の弱点だった。

6月23日、ByteDanceがVolcano Engine FORCEカンファレンスで発表したSeedance 2.5は、その壁を正面から壊しにきた。30秒の動画を、つなぎなしの一発で生成する。

30秒・4K・音声込み

数字だけ並べると、Seedance 2.0からの変化は明確だ。

生成尺が約3倍(10秒→30秒)。解像度はネイティブ4Kに対応し、アップスケーラーを通さなくても納品品質が出る。プロンプト忠実度は20%向上したとByteDanceは主張している。

だが、一番大きい変更は「音」のほうだ。

Seedance 2.5では映像と音声が同じ潜在空間(latent space)で同時に処理される。従来のAI動画は映像を作ってから別モデルで音を乗せる2段階方式だったが、2.5では映像の生成過程そのものに音声信号が組み込まれている。ドアが閉まれば閉まる音が鳴り、人物が話せば口の動きと声がフォニーム単位で同期する。後付けのリップシンクとは設計思想が違う。

実際にどこまで自然かはリリース後に検証が必要だが、アプローチとしては正しい方向だと思う。映像と音を別工程で作って合わせるのは、そもそも人間の映像制作でもやりたくない作業だ。

50の参照入力という設計

もう一つの目玉は、参照入力の大幅拡張。Seedance 2.0では数枚の画像しか渡せなかったが、2.5では最大50のマルチモーダル参照を受け取る。画像、音声クリップ、3Dホワイトモデル、スタイルリファレンスを組み合わせて投入できる。

これは単なる数の増加ではない。50の参照が使えるなら、ブランドガイドライン(ロゴ、カラーパレット、フォント指定)をまとめて渡してCMを生成したり、キャラクターの表情集を複数枚入れて一貫性を保ったりする使い方が現実的になる。

加えて「ローカルリドロー」と呼ばれる部分編集機能も追加された。フレーム内の特定領域だけを変更し、残りはそのまま保持できる。背景を差し替えたい、人物の服だけ変えたい、といった修正を全体の再生成なしに行える。AI動画の「やり直しコスト」を下げる地味だが実用的な機能だ。

まだ見えないもの

正直に書くと、現時点で不明な点は多い。

価格が未公開。 Seedance 2.0はDreamina経由で1秒あたり約20円だったが、2.5の4K・30秒生成がいくらになるかはByteDanceから一切アナウンスされていない。4K×30秒が従来比例の価格なら1本600円程度だが、計算量を考えるとそう単純ではないだろう。

正式リリースは7月。 現時点ではエンタープライズ向けベータのみ。一般ユーザーがDreaminaやCapCut経由で使えるようになる時期は未確定だ。

実際の出力品質は未検証。 カンファレンスのデモは当然ベストケースが選ばれている。プロンプトの複雑さや参照入力の組み合わせによる品質のばらつきは、実際に触るまでわからない。

AI動画の「尺」競争が始まった

Seedance 2.5の30秒という数字は、AI動画生成の競争軸を変える可能性がある。

これまでの競争は画質・動きの自然さ・プロンプト忠実度が中心だった。だが30秒の一括生成が実用化すれば、「尺」が新たな差別化要因になる。Google Veo 4が2分の動画を出せるとはいえ、4K・音声同時生成・50参照入力という組み合わせはまだ他にない。

映像制作のワークフローで考えると、30秒あればCMの1本分、YouTube Shortsの1本分、製品デモの1シーン分に相当する。つなぎ合わせの手間が消えるだけで、AI動画が「素材」から「完成品」に一歩近づく。

価格次第ではあるが、この方向に進んでくれるのは歓迎だ。7月のリリースを待って、実際の出力を検証したい。

関連記事