FlowTune Media

声のAIだったElevenLabsが、動画まで作れるエディターになっていた

ElevenLabsといえば、音声合成のAPI屋だった。クオリティは高いが、やることは「テキストを入れて音声を返す」の一点。

その認識は、もうアップデートが必要だ。

6月にElevenLabsが立て続けに出した2つのリリースで、会社の輪郭が大きく変わった。1つはFlash——応答75msの超低遅延TTSモデル。もう1つはStudio 3.0——音声・動画・BGM・効果音・字幕をブラウザ1画面で完結させるAIエディターだ。

API屋がプラットフォームになろうとしている。

Flash — 75msでAIエージェントが「人間っぽく」なる

Flashの存在意義はシンプルだ。AIエージェントとの会話で、不自然な沈黙をなくす。

人間同士の会話では、相手の発言が終わってから応答が返るまでの時間は200〜300ms程度。従来のTTSは数百msから1秒以上の遅延があり、AIエージェントとの音声会話には常に「微妙な間」がつきまとっていた。Flashは75msでこれを解消する。

技術的に言えば、従来モデルより消費クレジットも少ない(1文字あたり0.5〜1クレジット)。リアルタイム音声エージェントを構築する場合、品質とコストの両方で最適な選択肢になる。

ただし、Flashは速さに振ったモデルだ。ElevenLabsの最上位モデル「Eleven v3」と比較すると、感情表現の豊かさやイントネーションの自然さでは一段落ちる。ポッドキャストのナレーションやオーディオブックにはv3のほうが向いている。Flashが活きるのは、カスタマーサポートのボイスボット、音声アシスタント、ゲーム内のNPC会話——レイテンシが体験を左右する場面だ。

Studio 3.0 — 「5つのツール」が1画面に

Studio 3.0の登場で消えるワークフローがある。

従来のAI動画制作では、ElevenLabsで音声を生成→ダウンロード→動画編集ソフトに読み込み→別のサイトでBGMを探す→字幕ツールでキャプション生成→タイミング調整。最低5つのツールを行き来する。

Studio 3.0はこれを1つのブラウザ画面に収めた。

タイムライン上に動画・ナレーション・BGM・効果音・字幕のトラックが並び、すべてその場で生成・調整できる。特に面白いのは音楽生成機能だ。「calm lo-fi hip hop, 90 BPM, instrumental」のようなプロンプトを入力すると、動画の内容とムードに合った楽曲をAIが生成し、タイムラインに乗せてくれる。

字幕は29言語対応。音声クローンは30秒のサンプルがあれば作れる。コミュニティが共有する1万以上のボイスライブラリも使える。

正直に言うと、個々の機能で見れば専門ツールに勝てない部分はある。動画編集の自由度はDaVinci Resolveに及ばないし、BGM生成はSunoやUdioのほうがバリエーションが豊かだろう。だがStudio 3.0の価値は「すべてが1画面にある」ことそのものだ。ツール間のエクスポート・インポートが消えるだけで、制作速度は体感で2〜3倍になる。

料金 — 無料でも触れる

プラン 月額 日本円換算 含まれるもの
Free $0 無料 10,000クレジット
Starter $6 約900円 30,000クレジット
Creator $22 約3,300円 121,000クレジット
Pro $99 約14,850円 600,000クレジット
Scale $299 約44,850円 1,800,000クレジット、3シート

Studio 3.0は無料プランでも使える。まず試してみて、使用量に応じてプランを上げればいい。

会話型AIエージェント(Conversational AI)を使う場合は別途分単位の課金がある。各プランにバンドル分数が含まれ(Starter 75分、Pro 1,238分)、超過分は1分$0.08 + LLMトークン費用。ここは開発者向けの話だが、ボイスボットを組む場合のコスト設計には注意がいる。

音声AIから「制作プラットフォーム」への転換

ElevenLabsの動きを見ていると、「AI音声」という枠にとどまる気がないのは明らかだ。

FlashでAIエージェントの基盤インフラを押さえ、Studio 3.0でクリエイターの制作環境を丸ごと取り込む。下流(API)と上流(エディター)の両方を持つことで、ユーザーが他のツールに移る理由を減らしている。

同じことをCanvaがデザインの世界でやったし、Notionがドキュメントの世界でやった。ElevenLabsは音声を起点に、メディア制作全体のプラットフォームを狙っている。

YouTube動画の制作、ポッドキャスト配信、企業の研修コンテンツ——これまで音声だけElevenLabsに頼っていたクリエイターが、ワークフロー全体をStudio 3.0に寄せ始めたら、囲い込みは加速する。すでにARR $500M(約750億円)を突破している企業がさらに成長するための布石として、かなり筋のいい一手だと思う。

関連記事