FlowTune Media

AI音声エージェント、1分あたり5円〜50円 — ElevenLabs・Vapi・Retell・Grok Voiceの実コストを比較

「AI音声エージェントを導入したい」——そう思って料金ページを開くと、数字の意味がよくわからない。$0.05/分と書いてあるのに、実際に請求されるのは$0.30/分。プラットフォーム料金、音声合成、LLM推論、電話回線——コストが4層に分かれていて、合計がいくらになるか見積もれない。

2026年6月時点で、AI音声エージェント市場はElevenLabsVapiRetell AIGrok Voice Agent APIの4プラットフォームが主要な選択肢だ。それぞれ得意領域がまるで違う。

料金の真実: 表示価格と実コスト

まず、表示価格だけで比較しても意味がない。各プラットフォームの料金構造を分解する。

ElevenLabs Vapi Retell AI Grok Voice
表示価格 $0.08〜0.12/分 $0.05/分 $0.07/分 $0.05/分
含まれるもの 音声合成+STT+LLM オーケストレーションのみ 音声エンジンのみ 音声合成+STT+LLM
実コスト目安 $0.08〜0.12/分 $0.25〜0.33/分 $0.13〜0.31/分 $0.05/分

ElevenLabsのConversational AIは、音声合成・音声認識・LLM推論がすべて込みで$0.08〜0.12/分。表示価格=実コストなので見積もりが楽だ。Standardモデルなら$0.08/分(約12円)、Premiumでも$0.12/分(約18円)。

Vapiの$0.05/分はオーケストレーション料金だけ。ここにSTT(Deepgram等)、LLM(OpenAI等)、TTS(ElevenLabs等)の料金が別途乗る。現実的な合計は$0.25〜0.33/分(約38〜50円)になる。Vapiの「安さ」は見かけ上のものだ。

Retell AIの$0.07/分も音声エンジンのみ。LLM料金($0.006〜0.06/分)と電話回線料金(約$0.015/分)を足すと、$0.13〜0.15/分が現実的なライン。Vapiよりは安いが、ElevenLabsのオールインクルーシブには及ばない。

Grok Voice Agent APIは$0.05/分のフラットレート。STTからTTSまで全部込みでこの価格は、正直に言って破格だ。ただし後述するように、得意分野が限定される。

音声品質とレイテンシ

料金だけでは選べない。音声の自然さとレスポンス速度は、エンドユーザーの体験を直接左右する。

ElevenLabsは音声品質で業界最高水準。11,000以上のボイスオプション、70以上の言語に対応し、感情表現の豊かさで他を圧倒する。レイテンシも100ミリ秒以下。6月1日のワルシャワサミットでは、クラウド品質の音声をデバイス上で完全にオフラインで動かすオンデバイスモデルも発表された。

Grok VoiceはxAIが6月3日にVapiとのパートナーシップを発表したばかり。平均TTFA(最初の音声までの時間)が1秒未満で、最も近い競合の5倍速いと主張している。Xでの4,500人を対象としたブラインドテストでは、人間の声とAIクローンの区別が50/50だった。

Vapi自体は音声エンジンを持たず、ElevenLabs・Deepgram・OpenAIなどの外部プロバイダーを組み合わせる。音声品質はプロバイダー次第だが、オーケストレーション層としての柔軟性が強みだ。

Retell AIも同様にプロバイダー選択式だが、デフォルトのRetellエンジンの品質は実用的だ。特に英語での応答速度は安定している。

日本語対応の現実

ここが日本のユーザーにとって最も重要なポイントだろう。

ElevenLabsの日本語TTSは品質が高い。ただし音声認識は外部サービスとの統合が必要で、日本語のSTT精度は他言語に比べると一段落ちる。Vapiの日本語認識は基本的に機能するが、ビジネス用語や専門用語の精度は約80%程度という報告がある。

率直に言って、2026年6月時点で「日本語の電話応対を完全に任せられる」音声AIプラットフォームは存在しない。英語圏向けのカスタマーサポートなら十分実用的だが、日本語の複雑な敬語や曖昧な表現をリアルタイムで処理するには、どのプラットフォームもまだ課題がある。

用途で選ぶ

高品質な音声体験を最優先するなら: ElevenLabs。 ブランドの音声を作り込みたい、多言語で展開したい、オフラインでも動かしたいケースに向く。料金もオールインクルーシブで見積もりが立てやすい。

既存のLLMやSTTを自由に組み合わせたいなら: Vapi。 「OpenAIの最新モデルを使いたい」「DeepgramのSTTとElevenLabsのTTSを組み合わせたい」といった柔軟な構成が可能。ただし合計コストは高くなりがちだ。

コストを抑えつつ素早く立ち上げたいなら: Retell AI。 $0.07/分の音声エンジンに安価なLLMを組み合わせれば$0.13/分程度で運用できる。20の同時通話が無料で付く点も、スタートアップにはありがたい。

とにかく安く、速くしたいなら: Grok Voice。 $0.05/分のフラットレートは最安。レイテンシも最速クラス。ただし、xAIのエコシステムに依存することになる。ボイスのカスタマイズ性やエンタープライズ向け機能ではElevenLabsに及ばない。

この先に来るもの

音声AIエージェント市場は、2025年の「技術デモ」フェーズから「本番導入」フェーズに移行しつつある。ElevenLabsがAIエージェント保険(AIUC)を業界初で導入したのは象徴的だ。エージェントが引き起こす問題に対する保険が商品化されるほど、実運用が進んでいるということだ。

Grok VoiceがVapiの250万エージェントのデフォルトエンジンになったことも、市場の構造変化を示している。音声品質とコストの両面で競争が激化し、価格は下がり続けるだろう。日本語対応の精度向上が追いつけば、国内での導入も一気に加速する可能性がある。

ElevenLabs / Vapi / Retell AI / Grok Voice Agent API

関連記事