FlowTune Media

xAI Voice Agent Builder公開 — Grok Voiceで音声エージェントをノーコード構築、$0.05/分

7月1日、xAIが音声エージェント構築のノーコードプラットフォーム「Voice Agent Builder」をベータ公開した。Grok Voiceベースで、コードを書かずに本番向けの音声エージェントを構築できる。

何ができるのか

Voice Agent Builderは、カスタマーサポートや予約受付向けの音声エージェントをGUIだけで構築するツールだ。Grok Voiceの音声合成・認識がそのまま使える。

xAIはここ数ヶ月でプラットフォーム展開を急速に進めている。6月にGrok VoiceがVapiのデフォルト音声エンジンに採用され、Grok Imagine Video 1.5のGA、Grok Build 0.1の投入と続いた。Voice Agent Builderはこの拡張路線の最新ピースだ。

競合との比較

xAI Vapi ElevenLabs Retell AI
実コスト目安 $0.05/分 $0.25〜0.33/分 $0.08〜0.12/分 $0.13〜0.15/分
構築方式 ノーコード API/SDK ノーコード+API API中心
LLM Grok固定 自由選択 自由選択 自由選択

Vapiの$0.05/分はオーケストレーション料金だけで、STT・LLM・TTSを足すと$0.25超。ElevenLabsは音声品質で業界最高水準、オールインクルーシブで$0.08〜0.12/分。xAIの$0.05/分が全部込みなら価格面では最も攻めた設定だが、LLMがGrok固定という制約がある。

正直な評価

ベータ段階を本番に入れるリスクは無視できない。Grok Voiceの音声品質はVapiとの提携実績から一定水準にあるが、「ノーコード構築」と「本番運用」の間には距離がある。日本語対応も不透明で、日本市場を見据えるならElevenLabsの70言語対応の方が堅い。

ターゲットは明確だ。コードなしで音声エージェントを立ち上げたい非エンジニアチーム、Grokで十分なケース、コスト最優先のスタートアップ。逆に音声品質最優先ならElevenLabs、LLM選択の自由度が必要ならVapiが合う。

$0.05/分のフラットレートとノーコードの組み合わせは、音声エージェント市場の価格構造を揺さぶる可能性がある。GA後の安定性が本当の勝負だ。

xAI Voice Agent Builder(公式)

関連記事