FlowTune Media

音声エージェントの「間」がようやく自然になる — ElevenLabs Conversational AI 2.0の中身

音声AIエージェントを触ったことがある人なら、あの微妙な「間」に覚えがあるはずだ。こちらが言い終わるのを待てずに被せてくるか、逆に沈黙が2秒続いて「まだ聞いてる?」と不安になるか。この問題は音声合成の品質が上がっても、LLMが賢くなっても、なかなか消えなかった。ボトルネックは「いつ話し始めるか」の判断にあったからだ。

ElevenLabsがリリースしたConversational AI 2.0は、この問題に正面から取り組んでいる。目玉はカスタムターンテイキングモデル。加えてRAGナレッジベース、バッチコーリングAPI、多言語自動切替、マルチキャラクターモードと、音声エージェント構築に必要なパーツがひと通り揃った。

ターンテイキングモデルが変えること

従来の音声エージェントの多くは、沈黙の長さで「相手が話し終わった」と判断していた。0.5秒の閾値を設定して、それを超えたら応答を開始する。単純で堅実だが、人間の会話はそう単純ではない。考えながら「えーと…」と言っている途中で応答が始まったり、文の切れ目で一拍置いたら「ご用件は以上ですか?」と言われたり。

Conversational AI 2.0のターンテイキングモデルは、単なる沈黙検出ではなく、フィラーワード(「えーと」「あの」)や発話のイントネーション、文脈を分析してターンの切れ目を判断する。ElevenLabsは「state-of-the-art」と謳っているが、要するに「間のとり方が人間に近づいた」ということだ。

これが地味に効く。カスタマーサポートの自動応答でストレスを感じる原因の大半は、AIの応答内容ではなく会話のテンポにある。中身が正しくても、タイミングがずれると信頼感が一気に落ちる。

音声エージェントの土台が揃った

Conversational AI 2.0で追加された主要機能を整理する。

RAGナレッジベース。 テキスト、URL、ファイルをそのまま投入でき、エージェントがリアルタイムで参照する。ECサイトの商品情報や社内マニュアルを食わせて、問い合わせ対応を自動化する使い方が想定されている。ドキュメントの差し替えだけでエージェントの知識が更新されるので、ファインチューニングなしで運用できる。

バッチコーリングAPI。 複数の発信を同時に実行する機能。リマインダー、アンケート、パーソナライズされたメッセージなど、大量のアウトバウンドコールを一括処理できる。受信対応だけだった音声エージェントが、こちらから電話をかける側にも回れるようになった。

多言語自動切替。 会話中に言語が変わったことを自動検出し、シームレスに切り替える。手動設定は不要。日本語で始まった会話が英語に切り替わっても、エージェントが追従する。70以上の言語に対応。

マルチキャラクターモード。 1つのエージェントが複数のペルソナを切り替えられる。例えば、受付担当と技術サポートを同じエージェント内で使い分ける構成が可能になる。

エンタープライズ対応が本格化

今回のアップデートで特に目を引くのは、エンタープライズ向け機能の充実だ。HIPAA準拠、EUデータレジデンシ、SOC 2認定など、規制産業で必要とされるコンプライアンス要件を標準で満たしている。

音声AIエージェントの導入で最も慎重になるのは医療と金融だが、HIPAAに対応しているなら少なくとも米国の医療機関は検討の土台に載る。日本市場でいえば、EUデータレジデンシの存在はGDPR対応が求められるグローバル企業にとって重要だ。

料金はどうなったか

Conversational AIの通話料金は1分あたり約8〜10セント(年間契約のBusinessプランで8セント、月額では10セント前後)。直近のAPI値下げで約50%カットされており、以前と比べるとかなり攻めた価格設定になっている。

ただし注意点がある。この料金にはLLMの利用コストが含まれていない。現在ElevenLabsがLLMコストを吸収しているが、いずれ転嫁される見込みだ。GPT-5.5やClaude Opusを使うエージェントだと、実質的なコストは倍近くになる可能性がある。

1日100コール×平均3分の運用で試算すると、月額約750〜900ドル(約11〜13万円)。人件費の代替と考えれば安いが、「とりあえず試す」にはやや重い。

Vapi・Retellとどう違うのか

音声エージェントプラットフォームの競合としてはVapiとRetellが筆頭だ。

ElevenLabsの最大の強みはTTS品質。自社開発のEleven v3は感情表現やフィラーワードの再現で業界トップクラスの評価を受けている。他社プラットフォームがサードパーティのTTSを統合するのに対し、ElevenLabsは音声合成エンジンそのものを自前で持っている。

一方、Vapiはカスタマイズ性と料金の透明性に強みがあり、Retellはエンタープライズ向けのセキュリティ機能で先行してきた。Conversational AI 2.0のHIPAA対応でElevenLabsもその差を埋めにかかった格好だ。

正直なところ、ターンテイキングの品質は実際に触ってみないと評価が難しい。公式の「state-of-the-art」をそのまま鵜呑みにはできないが、ElevenLabsが音声技術の研究開発に本気で投資している会社であることは確かだ。$500Mの資金調達($11B評価額)を背景に、プラットフォーム機能の拡充スピードも上がっている。

その先に何が見えるか

ターンテイキングの品質が上がると、音声エージェントの適用範囲が一気に広がる。これまで「AIっぽさ」がネックで導入を見送っていたシーンが解禁される。

たとえば営業のアポ取り電話。人間の営業パーソンと遜色ないテンポで会話できるなら、初回コンタクトの自動化が現実的になる。バッチコーリングAPIとの組み合わせで、1日数百件のアウトバウンドを回しつつ、温度感のある会話ができる。

多言語自動切替は、インバウンド観光客への対応に直結する。ホテルのフロントや観光案内所で、日本語・英語・中国語を切り替えながら対応できるエージェントが、月1万円程度のコストで動くなら導入障壁はかなり低い。

RAGとバッチコーリングの組み合わせも面白い。たとえば、患者のカルテ情報をRAGに接続した上でバッチコールを実行すれば、定期検診のリマインド電話が患者ごとにパーソナライズされる。「田中さん、前回の血圧が少し高かったので、今回も測定をお願いしますね」といった具合だ。HIPAA準拠であれば、この構成が許容される。

まとめ

ElevenLabs Conversational AI 2.0は、音声エージェントに足りなかった「会話のテンポ」を埋めにきたアップデートだ。ターンテイキングモデル、RAG、バッチコール、HIPAA準拠と、プロダクション環境で求められるパーツが一通り揃った。

料金面はLLMコストの転嫁が不透明なままで、本番運用のTCOは慎重に見積もる必要がある。また、日本語のターンテイキング品質は英語ほど成熟していない可能性もある。

それでも、音声合成で圧倒的な品質を持つ会社がプラットフォーム全体を底上げしてきたインパクトは大きい。音声エージェントの構築を検討しているなら、Conversational AI 2.0は最初に試す選択肢の一つだ。

関連記事