ElevenLabs Eleven v3 — 「ため息をついて」「ささやいて」が通じるAI音声の現在地
AI音声合成に「演技指導」ができるようになった。
ElevenLabsのEleven v3は、テキストの中に [whispers] や [sighs] といったタグを埋め込むだけで、ささやき声やため息を音声に反映させる。従来のTTSが「文字を声にする」だけだったとすれば、v3は「文字に感情を乗せて声にする」モデルだ。
Audio Tagsという発明
v3の最大の特徴がAudio Tagsだ。角括弧で囲んだ指示をテキストに挿入するだけで、声の表現が変わる。
[excited]で興奮した口調、[whispers]でささやき声、[sighs]でため息。[clapping]や[explosion]のような効果音すら生成できる。さらに[pause: 1.5s]で任意の長さの間を入れたり、複数話者の会話を1つのテキストで制御したりもできる。
正直、初めてこれを試したときは驚いた。テキストの途中に[laughs]と書くだけで、本当に笑い声が入る。機械的なTTSに慣れていると、違和感を覚えるほど自然だ。
オーディオブックやポッドキャスト制作で「ここでためらいの間が欲しい」「この台詞は小声で」という演出をプロンプト一つで実現できるのは、制作フローを根本から変える。ナレーターに再収録を依頼する代わりに、テキストを編集するだけで済む。
日本語はどうか
v3は70以上の言語に対応しており、日本語もサポートされている。前バージョンのMultilingual v2と比べると、イントネーションの平板さが大幅に改善された。「読み上げ」ではなく「話している」に近い自然さがある。
ただし、ネイティブスピーカーが聞けば「微妙にAIっぽい」と感じる場面はまだある。助詞の強弱やアクセントの揺れが、日本語特有の自然さに完全には追いついていない。英語での表現力を100とすると、日本語は70〜80くらいの印象だ。
面白いのはクロスリンガル機能で、英語話者の声をクローンして日本語を話させると、元の声質を保ったまま日本語が出てくる。海外のYouTuberが日本語吹き替え版を作るような用途には十分実用的だろう。
v3を使うべき場面、そうでない場面
v3はすべての用途に最適というわけではない。ElevenLabs自身も使い分けを推奨している。
v3が向いている場面:
- オーディオブック、ポッドキャスト、動画ナレーションなど、表現力が求められるコンテンツ制作
- Audio Tagsで感情や演出を細かく制御したい場合
- 多言語コンテンツの制作
v2.5 TurboまたはFlashが向いている場面:
- リアルタイムの対話(チャットボット、音声アシスタント)
- レイテンシーが重要なアプリケーション
- コスト最適化が必要な大量生成
v3は高品質だが生成速度はv2.5系より遅い。リアルタイム性が求められる場面では、素直にTurboかFlashを選んだほうがいい。
料金
| プラン | 月額 | 音声生成時間(目安) |
|---|---|---|
| Free | $0 | 約10分 |
| Starter | $5 | 約30分 |
| Creator | $22 | 約100分 |
| Pro | $99 | 約500分 |
| Scale | $330 | 約2,000分 |
| Business | $1,320 | 約11,000分 |
v3モデルは全有料プランで利用可能。無料プランでも試せるが、生成回数が限られる。API利用の場合、v3は1,000文字あたり$0.17〜$0.30(プランにより異なる)。
現在、v3はGA(一般提供)ローンチ記念として6月末まで80%オフのキャンペーンを実施中だ。試すなら今が一番安い。
既存のElevenLabs記事との位置づけ
このメディアではElevenLabsについてElevenCreative(クリエイティブプラットフォーム)、Iconic Voice(ボイスマーケットプレイス)、Music App(AI音楽生成)、オンプレミス版(企業向け)と複数回取り上げてきた。
v3はこれらの基盤となるTTSエンジン自体の進化だ。ElevenLabsがプラットフォームとしてどう広がっているかは上記の記事を参照してほしい。本記事は「声そのものの品質がどう変わったか」に焦点を当てた。
音声AIの勢力図
ElevenLabsはTTSの品質では現時点でトップクラスだが、競合も急速に追い上げている。OpenAIのTTS APIは安価で安定しており、Google Cloud TTSは多言語の精度が高い。オープンソースではVoxCPM2のような「声を文章で設計する」モデルも登場している。
v3のAudio Tagsは他社にないユニークな機能であり、感情表現の精度では頭一つ抜けている。ただし、単純な読み上げ用途であれば価格差を考慮して他の選択肢を検討する価値はある。
関連記事
「こんな声で」と文章で指定するだけ — 無料の音声合成AI VoxCPM2が面白い
VoxCPM2は30言語対応・商用無料のOSS音声合成モデル。声を文章で設計できるボイスデザイン機能の仕組みと使い方を解説。
Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角
Gemini 3.1 Flash TTSは200以上のタグで声の感情やペースを制御できるGoogleの音声合成モデル。料金、ElevenLabsとの違い、日本語対応の実態を整理する。
話すだけでSlackもメールも整う — AI音声入力「Wispr Flow」が全プラットフォームに揃った
全プラットフォーム対応のAI音声入力ツール「Wispr Flow」をレビュー。文脈に応じた自動整形、料金、精度、日本語対応の実態を整理する。