xAI Voice Agent Builder公開 — Grok Voiceで音声エージェントをノーコード構築、$0.05/分
7月1日、xAIが音声エージェント構築のノーコードプラットフォーム「Voice Agent Builder」をベータ公開した。Grok Voiceベースで、コードを書かずに本番向けの音声エージェントを構築できる。
何ができるのか
Voice Agent Builderは、カスタマーサポートや予約受付向けの音声エージェントをGUIだけで構築するツールだ。Grok Voiceの音声合成・認識がそのまま使える。
xAIはここ数ヶ月でプラットフォーム展開を急速に進めている。6月にGrok VoiceがVapiのデフォルト音声エンジンに採用され、Grok Imagine Video 1.5のGA、Grok Build 0.1の投入と続いた。Voice Agent Builderはこの拡張路線の最新ピースだ。
競合との比較
| xAI | Vapi | ElevenLabs | Retell AI | |
|---|---|---|---|---|
| 実コスト目安 | $0.05/分 | $0.25〜0.33/分 | $0.08〜0.12/分 | $0.13〜0.15/分 |
| 構築方式 | ノーコード | API/SDK | ノーコード+API | API中心 |
| LLM | Grok固定 | 自由選択 | 自由選択 | 自由選択 |
Vapiの$0.05/分はオーケストレーション料金だけで、STT・LLM・TTSを足すと$0.25超。ElevenLabsは音声品質で業界最高水準、オールインクルーシブで$0.08〜0.12/分。xAIの$0.05/分が全部込みなら価格面では最も攻めた設定だが、LLMがGrok固定という制約がある。
正直な評価
ベータ段階を本番に入れるリスクは無視できない。Grok Voiceの音声品質はVapiとの提携実績から一定水準にあるが、「ノーコード構築」と「本番運用」の間には距離がある。日本語対応も不透明で、日本市場を見据えるならElevenLabsの70言語対応の方が堅い。
ターゲットは明確だ。コードなしで音声エージェントを立ち上げたい非エンジニアチーム、Grokで十分なケース、コスト最優先のスタートアップ。逆に音声品質最優先ならElevenLabs、LLM選択の自由度が必要ならVapiが合う。
$0.05/分のフラットレートとノーコードの組み合わせは、音声エージェント市場の価格構造を揺さぶる可能性がある。GA後の安定性が本当の勝負だ。
関連記事
「終わるまで自分で直す」AIコーディング — Grok Build /goalが検証まで自動化する
xAIがGrok Buildに追加した/goalモードは、目標を渡すだけで計画・実装・検証を自律実行する。マルチモデル構成、Claude Codeとの違いを解説。
電話営業の成約率20%、サポート解決率70% — xAIの音声エージェントがStarlinkで出した実績
xAIの音声エージェントモデルgrok-voice-think-fast-1.0はStarlinkの電話営業・サポートで実績を出した。バックグラウンド推論の仕組みと実力を解説。
Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上
xAIがGrok STT/TTS APIを公開。文字起こし$0.10/時間、音声合成$4.20/100万文字。ElevenLabsの10分の1以下の価格で精度は上回る。料金・性能・使い所を整理した。