ElevenLabs Eleven v3 — 「ため息をついて」「ささやいて」が通じるAI音声の現在地

AI音声合成に「演技指導」ができるようになった。
ElevenLabsのEleven v3は、テキストの中に [whispers] や [sighs] といったタグを埋め込むだけで、ささやき声やため息を音声に反映させる。従来のTTSが「文字を声にする」だけだったとすれば、v3は「文字に感情を乗せて声にする」モデルだ。
Audio Tagsという発明
v3の最大の特徴がAudio Tagsだ。角括弧で囲んだ指示をテキストに挿入するだけで、声の表現が変わる。
[excited]で興奮した口調、[whispers]でささやき声、[sighs]でため息。[clapping]や[explosion]のような効果音すら生成できる。さらに[pause: 1.5s]で任意の長さの間を入れたり、複数話者の会話を1つのテキストで制御したりもできる。
正直、初めてこれを試したときは驚いた。テキストの途中に[laughs]と書くだけで、本当に笑い声が入る。機械的なTTSに慣れていると、違和感を覚えるほど自然だ。
オーディオブックやポッドキャスト制作で「ここでためらいの間が欲しい」「この台詞は小声で」という演出をプロンプト一つで実現できるのは、制作フローを根本から変える。ナレーターに再収録を依頼する代わりに、テキストを編集するだけで済む。
日本語はどうか
v3は70以上の言語に対応しており、日本語もサポートされている。前バージョンのMultilingual v2と比べると、イントネーションの平板さが大幅に改善された。「読み上げ」ではなく「話している」に近い自然さがある。
ただし、ネイティブスピーカーが聞けば「微妙にAIっぽい」と感じる場面はまだある。助詞の強弱やアクセントの揺れが、日本語特有の自然さに完全には追いついていない。英語での表現力を100とすると、日本語は70〜80くらいの印象だ。
面白いのはクロスリンガル機能で、英語話者の声をクローンして日本語を話させると、元の声質を保ったまま日本語が出てくる。海外のYouTuberが日本語吹き替え版を作るような用途には十分実用的だろう。
v3を使うべき場面、そうでない場面
v3はすべての用途に最適というわけではない。ElevenLabs自身も使い分けを推奨している。
v3が向いている場面:
- オーディオブック、ポッドキャスト、動画ナレーションなど、表現力が求められるコンテンツ制作
- Audio Tagsで感情や演出を細かく制御したい場合
- 多言語コンテンツの制作
v2.5 TurboまたはFlashが向いている場面:
- リアルタイムの対話(チャットボット、音声アシスタント)
- レイテンシーが重要なアプリケーション
- コスト最適化が必要な大量生成
v3は高品質だが生成速度はv2.5系より遅い。リアルタイム性が求められる場面では、素直にTurboかFlashを選んだほうがいい。
料金
| プラン | 月額 | 音声生成時間(目安) |
|---|---|---|
| Free | $0 | 約10分 |
| Starter | $5 | 約30分 |
| Creator | $22 | 約100分 |
| Pro | $99 | 約500分 |
| Scale | $330 | 約2,000分 |
| Business | $1,320 | 約11,000分 |
v3モデルは全有料プランで利用可能。無料プランでも試せるが、生成回数が限られる。API利用の場合、v3は1,000文字あたり$0.17〜$0.30(プランにより異なる)。
現在、v3はGA(一般提供)ローンチ記念として6月末まで80%オフのキャンペーンを実施中だ。試すなら今が一番安い。
既存のElevenLabs記事との位置づけ
このメディアではElevenLabsについてElevenCreative(クリエイティブプラットフォーム)、Iconic Voice(ボイスマーケットプレイス)、Music App(AI音楽生成)、オンプレミス版(企業向け)と複数回取り上げてきた。
v3はこれらの基盤となるTTSエンジン自体の進化だ。ElevenLabsがプラットフォームとしてどう広がっているかは上記の記事を参照してほしい。本記事は「声そのものの品質がどう変わったか」に焦点を当てた。
音声AIの勢力図
ElevenLabsはTTSの品質では現時点でトップクラスだが、競合も急速に追い上げている。OpenAIのTTS APIは安価で安定しており、Google Cloud TTSは多言語の精度が高い。オープンソースではVoxCPM2のような「声を文章で設計する」モデルも登場している。
v3のAudio Tagsは他社にないユニークな機能であり、感情表現の精度では頭一つ抜けている。ただし、単純な読み上げ用途であれば価格差を考慮して他の選択肢を検討する価値はある。
関連記事
ElevenLabsのAPI料金が最大55%下がった — 従量課金も導入、音声AIの敷居がまた一段低くなる
ElevenLabsがTTS最大55%、STT最大45%、エージェント最大20%のAPI値下げとPAYG(従量課金)を発表。新旧料金の比較と、開発者への影響を解説。
AI音声合成ツール比較 2026年版 — ElevenLabs・Gemini TTS・Grok TTS、結局どれを使えばいいのか
2026年のAI音声合成(TTS)ツールを徹底比較。ElevenLabs、Gemini 3.1 Flash TTS、Grok TTS、Voxtral、VoxCPM2の料金・品質・日本語対応を整理し、用途別のおすすめを解説する。
AIコーディングで「音」が扱えるようになった — ElevenLabsがAWSのIDE Kiroに公式統合
ElevenLabsがAWSのエージェントIDE「Kiro」向けPowerを公開。TTS・STT・音楽・効果音APIをコーディング中に呼び出せる。動的コンテキストロードの仕組みと開発者への影響を解説。