Seedance 2.0 — Veo 3もSora 2も抜いたByteDanceのAI動画モデルを徹底解剖

Seedance 2.0

AI動画生成のベンチマークで、ByteDanceが首位を取った。

Artificial Analysisが運営するVideo Arenaリーダーボードで、Seedance 2.0がテキスト-to-ビデオ（Eloスコア1,269）とイメージ-to-ビデオ（同1,351）の両カテゴリで1位を獲得。GoogleのVeo 3、OpenAIのSora 2、RunwayのGen-4.5をすべて上回った。TikTokの親会社が、動画AIの頂点に立ったことになる。

「統合マルチモーダル」という設計思想

Seedance 2.0の最大の特徴は、テキスト・画像・音声・動画の4種類の入力を同時に受け付けるアーキテクチャにある。1回のプロンプトで最大9枚の参照画像、3本の動画クリップ、3本のオーディオクリップを投入できる。これは他のどのモデルにもない。

従来のAI動画モデルは「まず無音の動画を生成し、あとから音声を乗せる」という2段階のワークフローだった。Seedance 2.0はDual-Branch Diffusion Transformerと呼ばれるアーキテクチャで、映像と音声を同時に生成する。台詞は8言語以上でリップシンクが効き、効果音も映像のタイミングに正確に同期する。

出力は最大1080p・15秒。スペックだけを見れば特段突出しているわけではない。Veo 3.1は4Kに対応しているし、Sora 2は25秒まで生成できる。だが、映像・音声・マルチモーダル参照を一つのモデルで統合的に処理できるのは、現時点でSeedance 2.0だけだ。ByteDanceはこれを「Director Era（監督の時代）」と呼んでいる。プロンプトを書いて祈るフェーズから、素材を渡してディレクションするフェーズへ。大袈裟な名前だが、方向性としては正しい。

ベンチマーク1位の意味

Artificial AnalysisのVideo Arenaは、匿名のユーザー投票でモデルを評価するブラインドテストだ。内部ベンチマークとは異なり、実際のユーザーの主観的な好みが反映される。そこで首位を取った事実は重い。

ただし注意点もある。音声付き動画のカテゴリでは、テキスト-to-ビデオのEloスコアが1,220で1位だが、イメージ-to-ビデオでは1,158で2位。音声を含めた総合評価では、まだVeo 3.1と僅差の争いだ。

筆者の見立てでは、Seedance 2.0は「器用さ」で勝っている。単体の映像クオリティではVeo 3.1に及ばない場面もあるが、マルチモーダル入力の柔軟さとオーディオ同期の精度で差をつけている形だ。一方、物理演算のリアリズムではSora 2に軍配が上がるシーンもある。つまり「万能の1位」ではなく、「総合力の1位」。

Veo 3、Sora 2との使い分け

AI動画生成ツールは、もはや1つに絞る時代ではない。用途で選ぶのが現実的だ。

Seedance 2.0の真価は、複数素材を参照しながらの動画生成にある。既存の映像素材にスタイルを合わせたい、音楽のリズムに映像を同期させたい、特定のキャラクターを複数カットにわたって維持したい。こうした「ディレクション」が求められる場面では、現状最も使い勝手がいい。カメラワークの制御も進化していて、ドリーズーム、ラックフォーカス、トラッキングショットなど映像制作の文法をプロンプトで指定できるレベルに達した。

Veo 3.1はシネマグレードの映像品質で勝負する。4K・プロフェッショナルな色彩設計・ネイティブの音声生成。最終納品物のクオリティを最優先するなら、こちらを選ぶ理由がある。

Sora 2は物理的なリアリズムで独自のポジションにいる。物体の重さ、慣性、衝突。こうした物理表現の説得力では他モデルを上回る。アーティスティックな表現にも強い。

実際の制作現場では、プロトタイプをSeedance 2.0で素早く量産し、最終版をVeo 3.1で仕上げる、といったワークフローが出始めている。Runway Gen-4.5が先行していたカメラコントロールの領域に、正面からぶつかってきた形でもある。

CapCut統合が意味すること

3月末、SeedanceはCapCutに統合された。これは単なるプラグイン追加ではない。

CapCutの編集タイムライン内でAI動画を直接生成し、そのままトリミング、キャプション追加、テンプレート適用、エクスポートまで一気通貫でできる。「構想→生成→編集→書き出し」が一つのアプリで完結する。この体験設計はかなり強力だ。

ByteDanceはTikTokとCapCutという巨大な動画エコシステムをすでに持っている。そこにAI生成をネイティブ統合するのは、GoogleがGeminiをWorkspaceに埋め込むのと同じ戦略。ツール単体の性能ではなく、エコシステムの中で使われることに意味がある。

現時点でCapCut統合はインドネシア、フィリピン、タイ、ベトナム、マレーシア、ブラジル、メキシコで展開中。日本はまだ対象外だが、順次拡大予定とされている。CapCut Proの有料サブスクリプションが必要だ。

料金体系

Seedance 2.0はDreamina（ByteDanceの国際向けAIプラットフォーム）から利用できる。

無料枠は1日225トークン。ただしこれはDreamina全ツール共通のプールで、画像生成やその他の編集にも消費される。動画生成だけで考えると、1日1〜2本の短尺動画が限度だ。お試しには十分だが、本格運用には足りない。

有料プランはクレジットベースで月額$18〜$84。10秒・720pの動画1本あたり約$1.91〜$4.60。最大バンドルでも1本約300円、通常価格なら約700円。安くはない。

気になるのは、中国国内向けのJimeng（即夢）だと月69元（約1,400円）から利用できること。国際版Dreaminaの$18（約2,700円）とほぼ倍の価格差がある。同じモデルなのにこの差は、市場拡大フェーズの価格設定としては疑問が残る。

ByteDanceのAI戦略

ByteDanceがAI動画で首位を取ったことは、同社のAI戦略全体の文脈で見ると象徴的だ。

TikTokという世界最大のショート動画プラットフォーム。CapCutという動画編集ツール。そしてSeedanceというAI生成モデル。この3つが揃ったとき、「コンテンツの消費→制作→配信」のループが一社で完結する。OpenAIもGoogleも、この垂直統合の深さでは及ばない。

見過ごせない懸念

率直に書く。ByteDanceは中国企業であり、TikTokを巡る米国での安全保障議論を見るまでもなく、データプライバシーへの懸念は常につきまとう。

Seedance 2.0に投入した画像・動画・音声がどこに保存され、どう使われるのか。学習データへの利用可否。これらの透明性が十分とは言えない。個人のクリエイティブ用途であれば気にしすぎる必要はないかもしれないが、企業の機密映像や未公開素材をアップロードするのはリスクがある。

もう一つ。Seedance 2.0は現時点でオープンソースではなく、APIアクセスも限定的だ。プロダクションに組み込む場合の自由度はVeo（Google Cloud経由）やSora（OpenAI API）に比べて低い。APIのグローバル公開は2026年Q2の見込みとされているが、企業利用を検討するならデータポリシーの精査が不可欠だろう。

米国でのCapCut提供も、知的財産権に関する議論の影響で遅れている。地政学リスクが製品の可用性に直結するのは、ByteDance製品の宿命とも言える 🎬

まとめると

Seedance 2.0は、AI動画生成の新しい基準を作った。マルチモーダル統合、オーディオ同期、CapCutとのエコシステム連携。どれも「あったらいいな」ではなく「ないと困る」レベルの機能だ。

ベンチマーク1位は伊達じゃない。ただし、映像単体の極限品質ではVeo 3.1に、物理リアリズムではSora 2に、それぞれ一歩譲る場面がある。万能ではない。

最大の武器は、TikTok/CapCutエコシステムとの統合だ。AIモデルの性能だけでなく、「どこで、どう使えるか」という体験設計で勝負している点がByteDanceらしい。データプライバシーの懸念と地政学リスクを許容できるなら、触ってみる価値は十分にある。

Seedance 2.0 公式サイト / Dreamina

Seedance 2.0 — Veo 3もSora 2も抜いたByteDanceのAI動画モデルを徹底解剖

「統合マルチモーダル」という設計思想

ベンチマーク1位の意味

Veo 3、Sora 2との使い分け

CapCut統合が意味すること

料金体系

ByteDanceのAI戦略

見過ごせない懸念

まとめると

関連記事

Kling 3.0 vs Seedance 2.0 — ベンチマーク「1位」が2つある理由と、AI動画生成の現在地

Midjourney V8レビュー — エンジン全面刷新で画像AIの勢力図は変わるか

Runway Gen-4.5レビュー — 1本430円のAI動画は、どこまで実用に耐えるか