「15分で音声エージェント」は本当か? ElevenLabs Agentsを触って見えた実力と限界
音声AIエージェントを自前で構築しようとすると、想像以上にパーツが多い。音声認識(STT)、大規模言語モデル(LLM)、音声合成(TTS)、ターンテイキング制御、電話回線の接続。それぞれ別のAPIを契約し、レイテンシを調整し、エラーハンドリングを仕込む。試作だけで数週間が飛ぶ。
ElevenLabsが提供する「ElevenLabs Agents」は、この面倒をまるごと引き受けるプラットフォームだ。ダッシュボード上でLLMと音声モデルを選び、ナレッジベースを接続し、ペルソナを設定すれば、電話・Web・アプリで動く音声エージェントが出来上がる。公式は「15〜30分で本番品質のエージェントが立つ」と謳っている。
正直なところ、この手の「ノーコードで○○」という謳い文句には食傷気味だった。だが、ElevenLabsの場合は音声合成で業界トップの品質を持つ会社が自前のTTSエンジンを統合している点で、他のプラットフォームとは出発点が違う。
何ができるのか
ElevenLabs Agentsの基本構造はシンプルだ。ダッシュボードでエージェントを新規作成し、以下の3つを設定する。
1. LLMの選択。 GPT-5、Claude 4.5 Sonnet、Gemini 2.5 Flashなど外部モデルを接続するか、ElevenLabs独自のFlashモデル(レイテンシ特化)を選ぶ。用途に応じて使い分けられる。
2. ナレッジベース。 PDFやURL、APIエンドポイントを登録すると、エージェントがRAG(検索拡張生成)で回答に使う。社内FAQや商品カタログを食わせておけば、問い合わせ対応がそのまま自動化される。
3. ペルソナとガードレール。 「あなたはレストランの予約担当です」のようなシステムプロンプトに加え、禁止トピックや会話の上限時間も設定できる。暴走防止は音声エージェントでは特に重要で、ここを細かく制御できるのはありがたい。
設定が終わったら「Test AI agent」ボタンを押すだけで、ブラウザ上でマイクを使ったテスト通話ができる。ここまでの所要時間は、慣れれば確かに15分程度だ。
Expressive Modeが変えたこと
ElevenLabs Agentsの最大の武器は、音声品質だ。
2026年に入って追加された「Expressive Mode」は、文脈に応じてトーン、間、感情を自動調整する。笑い、ささやき、ため息、適切な間。70以上の言語で自然な抑揚を再現する。従来の音声エージェントが持っていた「AIっぽさ」を大幅に削減した。
レイテンシも100ミリ秒未満。電話の会話で不自然な沈黙が生まれない水準だ。さらに、ターンテイキングモデルが「えーと」「うーん」といったフィラーを検知して、ユーザーがまだ話しているのか話し終えたのかを判定する。途中で被せてこないエージェントは、思った以上に体験が良い。
11,000以上の音声オプションが用意されており、Voice Cloningで独自の音声も作れる。ブランドの「声」をそのままエージェントに載せたい企業にとって、この選択肢の広さは決め手になりうる。
料金体系
ElevenLabs Agentsの料金は、月額プランに含まれるバンドル分数+超過従量課金の二層構造だ。
| プラン | 月額 | バンドル分数 | 超過料金/分 |
|---|---|---|---|
| Starter | $5(約750円) | 75分 | $0.08 |
| Creator | $22(約3,300円) | 275分 | $0.08 |
| Pro | $99(約14,850円) | 1,238分 | $0.08 |
| Scale | $330(約49,500円) | 3,738分 | $0.08 |
| Business | $99〜/席 | 12,375分 | 要相談 |
エージェントの作成自体は無料。各プランにAgents専用のバンドル分数が含まれており、超過分は$0.08/分で課金される。TTS文字数クォータとは別枠で管理される点に注意。
見落としがちなのがLLMのトークンコストだ。エージェントが使うLLM(GPT-5、Claude等)のトークン消費分は別途請求される。一般的なシステムプロンプトでGPT-5を使う場合、通話1分あたり追加で$0.02〜0.05程度かかる。つまり実質コストは$0.10〜0.13/分前後が目安になる。
Pro(月約1.5万円)で1,238分のバンドルは、1日約40分の通話に相当する。小規模なカスタマーサポートなら十分だが、1日数百件の通話が走る規模だとコストは急速に膨らむ。大規模運用はBusiness以上で単価交渉する前提だろう。
Vapi・Retell AIとの違い
音声エージェントプラットフォームの市場は急速に混み合っている。主要な競合と比較すると、ElevenLabs Agentsの立ち位置が見えてくる。
Vapiは「オーケストレーションレイヤー」として設計されている。STT・LLM・TTSをすべて外部から選んで組み合わせる構造で、柔軟性は高いが設定の手間も多い。Vapiのオーケストレーション料$0.05/分に加え、各プロバイダの利用料が別途かかるため、実質コストはElevenLabsと同水準かやや高くなる場面が多い。
Retell AIは構造化されたフロービルダーが強み。複雑な分岐(「在庫確認 → 在庫あり → 注文 → 決済」のような多段階フロー)を視覚的に組めるため、エンタープライズのコンプライアンス要件が厳しい用途で選ばれている。
ElevenLabs Agentsの差別化ポイントは、なんといっても音声品質だ。TTSを自社で持っている唯一のプラットフォームであり、音の自然さで妥協する必要がない。ブランドボイスやクリエイティブ用途、消費者向けプロダクトなど「声そのものが体験の一部」になるケースでは、ElevenLabsが第一選択肢になる。
逆に、複雑なマルチステップのコールフロー管理や、大量アウトバウンドコール(Bland.aiの得意領域)が必要な場合は、現時点ではRetellやBlandの方が成熟している。
日本語で使えるのか
結論から言うと、使える。エージェント言語設定で日本語を選択すれば、音声認識と音声合成が日本語モードに切り替わる。ElevenLabsの日本語TTSは2026年時点でかなり自然で、不自然なアクセントや読み間違いは少ない。
ただし注意点がある。ダッシュボードのUIは英語のみだ。エージェントの設定やプロンプト入力は日本語で書けるが、管理画面の操作は英語に慣れている必要がある。また、日本語の音声認識精度は英語と比べるとまだ差がある。固有名詞や専門用語の認識でミスが出ることがあるため、ナレッジベースに想定される質問パターンを多めに登録しておくと精度が上がる。
どんな場面で使うか
音声エージェントの導入が現実的になったことで、いくつかの活用が見えてくる。
ECサイトの問い合わせ対応は最もわかりやすい。「注文状況を教えて」「返品したい」といった定型的な問い合わせをエージェントに任せ、複雑な案件だけ人間に回す。Tidioのようなテキストチャットボットと組み合わせれば、テキストと音声の両チャネルをAIでカバーできる。
レストランやクリニックの予約受付も相性がいい。営業時間外の電話を拾えるだけで、機会損失が減る。ElevenLabs Agentsは電話回線(Twilio経由)に直結できるため、既存の電話番号をそのまま使える。
もう少し先の話をすれば、多言語対応が面白い。70以上の言語にリアルタイムで切り替わるため、インバウンド観光客向けのホテルコンシェルジュや、多国籍チームの社内ヘルプデスクにも応用できる。言語検出が自動で走るので、利用者側の操作は不要だ。
正直な評価
ElevenLabs Agentsの最大の強みは、音声品質で妥協せずにエージェントを構築できる点にある。TTSを自社で持つ優位性は大きく、「AIと話している感」が最も薄いプラットフォームだと思う。ノーコードでの構築も確かに速い。
一方で、会話フロー管理のツールはRetell AIと比べるとまだシンプルだ。「Aと聞かれたらB、BがNGならCに分岐して...」のような複雑なロジックをビジュアルに組みたい場合は、もの足りなさを感じるかもしれない。もっとも、この差は急速に縮まっている。
あと率直に言うと、日本法人が設立されたとはいえ、日本語のドキュメントやサポートはまだ薄い。英語のドキュメントを読むことに抵抗がない人向け、というのが現時点の正直な印象だ。
音声の品質を最優先にしたいプロジェクトなら、ElevenLabs Agents一択。複雑なコールフロー制御が要件の中心なら、Retell AIも検討する価値がある。
関連記事
自分をCEOから降ろしてAIに譲った創業者がいる — Tycoon AIの実験と、その結果
Tycoon AIはAI CEO「Astra」と10以上のAIエージェントで一人会社を運営するプラットフォーム。HeyBoss 10万ユーザーの実績と仕組みを解説。
マッキンゼーに頼む代わりにAIに頼む — 月3.7万円で戦略レポートが出てくるRocket.newの実力
Rocket.newはAIでマッキンゼー級の製品戦略レポートを月$250で生成するプラットフォーム。$15M調達、150万ユーザー。料金・機能・限界を率直に解説する。
コールセンターの電話を全部AIが取る時代に最も近い会社 — Retell AIが月5,000万コールまで伸びた理由
Retell AIは音声・チャット・メール・SMS対応のAIコールセンタープラットフォーム。$50M ARR、月5,000万コール、料金体系、Klariqoとの違いを整理する。