声のAIだったElevenLabsが、動画まで作れるエディターになっていた
ElevenLabsといえば、音声合成のAPI屋だった。クオリティは高いが、やることは「テキストを入れて音声を返す」の一点。
その認識は、もうアップデートが必要だ。
6月にElevenLabsが立て続けに出した2つのリリースで、会社の輪郭が大きく変わった。1つはFlash——応答75msの超低遅延TTSモデル。もう1つはStudio 3.0——音声・動画・BGM・効果音・字幕をブラウザ1画面で完結させるAIエディターだ。
API屋がプラットフォームになろうとしている。
Flash — 75msでAIエージェントが「人間っぽく」なる
Flashの存在意義はシンプルだ。AIエージェントとの会話で、不自然な沈黙をなくす。
人間同士の会話では、相手の発言が終わってから応答が返るまでの時間は200〜300ms程度。従来のTTSは数百msから1秒以上の遅延があり、AIエージェントとの音声会話には常に「微妙な間」がつきまとっていた。Flashは75msでこれを解消する。
技術的に言えば、従来モデルより消費クレジットも少ない(1文字あたり0.5〜1クレジット)。リアルタイム音声エージェントを構築する場合、品質とコストの両方で最適な選択肢になる。
ただし、Flashは速さに振ったモデルだ。ElevenLabsの最上位モデル「Eleven v3」と比較すると、感情表現の豊かさやイントネーションの自然さでは一段落ちる。ポッドキャストのナレーションやオーディオブックにはv3のほうが向いている。Flashが活きるのは、カスタマーサポートのボイスボット、音声アシスタント、ゲーム内のNPC会話——レイテンシが体験を左右する場面だ。
Studio 3.0 — 「5つのツール」が1画面に
Studio 3.0の登場で消えるワークフローがある。
従来のAI動画制作では、ElevenLabsで音声を生成→ダウンロード→動画編集ソフトに読み込み→別のサイトでBGMを探す→字幕ツールでキャプション生成→タイミング調整。最低5つのツールを行き来する。
Studio 3.0はこれを1つのブラウザ画面に収めた。
タイムライン上に動画・ナレーション・BGM・効果音・字幕のトラックが並び、すべてその場で生成・調整できる。特に面白いのは音楽生成機能だ。「calm lo-fi hip hop, 90 BPM, instrumental」のようなプロンプトを入力すると、動画の内容とムードに合った楽曲をAIが生成し、タイムラインに乗せてくれる。
字幕は29言語対応。音声クローンは30秒のサンプルがあれば作れる。コミュニティが共有する1万以上のボイスライブラリも使える。
正直に言うと、個々の機能で見れば専門ツールに勝てない部分はある。動画編集の自由度はDaVinci Resolveに及ばないし、BGM生成はSunoやUdioのほうがバリエーションが豊かだろう。だがStudio 3.0の価値は「すべてが1画面にある」ことそのものだ。ツール間のエクスポート・インポートが消えるだけで、制作速度は体感で2〜3倍になる。
料金 — 無料でも触れる
| プラン | 月額 | 日本円換算 | 含まれるもの |
|---|---|---|---|
| Free | $0 | 無料 | 10,000クレジット |
| Starter | $6 | 約900円 | 30,000クレジット |
| Creator | $22 | 約3,300円 | 121,000クレジット |
| Pro | $99 | 約14,850円 | 600,000クレジット |
| Scale | $299 | 約44,850円 | 1,800,000クレジット、3シート |
Studio 3.0は無料プランでも使える。まず試してみて、使用量に応じてプランを上げればいい。
会話型AIエージェント(Conversational AI)を使う場合は別途分単位の課金がある。各プランにバンドル分数が含まれ(Starter 75分、Pro 1,238分)、超過分は1分$0.08 + LLMトークン費用。ここは開発者向けの話だが、ボイスボットを組む場合のコスト設計には注意がいる。
音声AIから「制作プラットフォーム」への転換
ElevenLabsの動きを見ていると、「AI音声」という枠にとどまる気がないのは明らかだ。
FlashでAIエージェントの基盤インフラを押さえ、Studio 3.0でクリエイターの制作環境を丸ごと取り込む。下流(API)と上流(エディター)の両方を持つことで、ユーザーが他のツールに移る理由を減らしている。
同じことをCanvaがデザインの世界でやったし、Notionがドキュメントの世界でやった。ElevenLabsは音声を起点に、メディア制作全体のプラットフォームを狙っている。
YouTube動画の制作、ポッドキャスト配信、企業の研修コンテンツ——これまで音声だけElevenLabsに頼っていたクリエイターが、ワークフロー全体をStudio 3.0に寄せ始めたら、囲い込みは加速する。すでにARR $500M(約750億円)を突破している企業がさらに成長するための布石として、かなり筋のいい一手だと思う。
関連記事
無料で5冊までオーディオブック化 — SpotifyがElevenLabsのAI音声で出版の敷居を下げた
SpotifyにElevenLabsのAI音声でオーディオブック作成機能追加。無料5冊まで。使い方を解説。
ElevenLabsのAPI料金が最大55%下がった — 従量課金も導入、音声AIの敷居がまた一段低くなる
ElevenLabsがTTS最大55%、STT最大45%、エージェント最大20%のAPI値下げとPAYG(従量課金)を発表。新旧料金の比較と、開発者への影響を解説。
マイケル・ケインの声で13時間 — AI生成のオーディオブックがElevenReaderで無料公開
ElevenLabsがホメロス「オデッセイ」の13時間AIオーディオブックを無料公開。マイケル・ケインのAI音声、20以上のキャスト、音楽・効果音すべてAI生成。