FlowTune Media

声のトーンも間合いも、90言語にコピーする — ElevenLabs Dubbing v2

海外向けに動画を出したいけど、吹き替えに数十万円かかる。字幕だと視聴維持率が落ちる。かといって自分で英語を話すのも現実的じゃない。

この「多言語化の壁」に対するElevenLabsの回答が、5月28日にリリースされたDubbing v2だ。90以上の言語に対応し、しかも元の話者の声と感情をそのまま引き継ぐ。

従来のAI吹き替えとの最大の違いは「テキストからではなく、元の音声から学ぶ」ことにある。

従来のAI吹き替えとの違い

これまでのAI吹き替えは、おおまかに言えばこういう流れだった。音声をテキストに変換→翻訳→合成音声で読み上げ。このプロセスでは、元の話者がどんなトーンで話していたか、どこで間を取っていたかという情報がテキスト化の段階で消える。結果として、平坦で感情のない吹き替えになりがちだった。

Dubbing v2はこの問題を根本から変えた。翻訳文の読み上げではなく、元の音声パフォーマンスそのものを条件として他言語の音声を生成する。トーン、ペーシング、声の強弱、感情の起伏——これらが翻訳先の言語にそのまま引き継がれる。

技術的に言えば、テキストのみを入力とするTTSから、音声コンディショニング付きの翻訳モデルに進化したということだ。

具体的にできること

ボイスクローン: 吹き替えは元の話者の声のクローンで行われる。声の個性、ピッチ、トーンが維持されるため、「別人が話している」違和感が大幅に減る。事前のセットアップは不要で、アップロードした動画から自動的に声を学習する。

複数話者の分離: 動画内に複数の話者がいる場合、自動で個別トラックに分離される。インタビューや対談形式の動画でも使える。

同期対応の翻訳: 翻訳エンジンが口語表現に最適化されており、開始・停止のタイミングやペーシングを元の音声に自動で合わせる。手動調整の手間がかなり減る。

対応フォーマット: MP4、MOV、MKVに対応。YouTubeのURLを直接貼り付けることも可能だ。

料金

ElevenLabsのクレジット制で課金される。ダビングの種類によってクレジット消費量が変わる。

  • 自動ダビング(透かしあり): 2,000クレジット/分
  • 自動ダビング(透かしなし): 3,000クレジット/分
  • Dubbing Studio(透かしあり): 5,000クレジット/分
  • Dubbing Studio(透かしなし): 10,000クレジット/分

Starterプラン(月額6ドル・約900円)の30,000クレジットだと、透かしなし自動ダビングで10分程度。Creatorプラン(月額22ドル・約3,300円)の121,000クレジットなら約40分。短尺の動画なら十分だが、長尺コンテンツを定期的に吹き替えるならProプラン(月額99ドル)が視野に入る。

正直なところ、プロの吹き替えスタジオに依頼すれば1分あたり数千円〜数万円かかることを考えると、コスト面での優位性は明らかだ。ただし品質面では、まだプロの声優による吹き替えに完全に追いつくレベルではない。

気になるポイント

APIがまだない。現時点ではElevenCreativeまたはElevenProductionsのUI経由でしか使えず、大量の動画を自動処理するワークフローは組めない。API対応は「数週間以内」とのことだが、具体的な日程は未定だ。

日本語の品質は英語に比べると一段落ちる。90以上の言語に対応しているとはいえ、言語によって品質にばらつきがある。英語→日本語は比較的よいが、日本語→他言語は発音やイントネーションに不自然さが残ることがある。

声の権利問題。ボイスクローンを使う以上、他人の声を無断で吹き替えに使うリスクがある。ElevenLabsは利用規約で本人の同意を求めているが、技術的な制限はかかっていない。チームで使う場合は社内ルールを整備しておく必要がある。

VaaniやHeyGenとどう違うのか

AI吹き替えの競合として、Vaani(リップシンク対応)やHeyGen(アバター動画生成)がある。

ElevenLabsの強みは音声品質の高さだ。TTS分野で業界トップクラスの評価を持つElevenLabsの技術基盤がそのまま活きており、声の自然さでは頭ひとつ抜けている。

Vaaniは口の動きまでAIで合わせるリップシンク機能が特徴。見た目の自然さを重視するならVaaniに分がある。一方でElevenLabsはリップシンクには対応していないため、「音声だけ差し替えたい」ケースに向く。

HeyGenはアバター動画生成がメインで、吹き替え機能は付随的な位置づけ。実在の人物の動画を吹き替えるならElevenLabs、ゼロからアバター動画を作るならHeyGenという棲み分けになる。

どう使えるか

このツールが一番刺さるのは、日本語で動画を作っているクリエイターだ。英語圏に向けてコンテンツを出すハードルが劇的に下がる。YouTubeの多言語オーディオトラック機能と組み合わせれば、1本の動画を複数言語で公開できる。

企業のプロダクト紹介動画、eラーニング教材、社内トレーニング動画——こうした「内容は良いが言語の壁で届かない」コンテンツに最も効果を発揮するだろう。

API対応が完了すれば、CMSと連携して「動画アップロード→自動で5言語に吹き替え→各国版を公開」という完全自動化も視野に入る。それが実現すれば、小規模チームでもグローバル展開が当たり前になる。その日は、そう遠くないはずだ。

関連記事