FlowTune Media

1秒未満で返答するAI音声 — Grok Voiceが250万以上の音声エージェントのデフォルトに

音声エージェントの品質を左右するのは、LLMの賢さだけではない。ユーザーが話し終わってから、エージェントが最初の一言を発するまでの時間——TTFA(Time-to-First-Audio)——が1秒を超えると、人間は「待たされている」と感じ始める。電話対応なら、その時点で切られる。

6月3日、xAIはこの問題に対する自社の回答を示した。Grok Voiceが、音声エージェント構築プラットフォームVapiの12種類あるコアボイスすべてのデフォルトエンジンに採用されたのだ。Vapiの上で動く250万以上の音声エージェントが、一斉にGrokの声を使い始める。

なぜVapiが選んだのか

Vapiは各音声プロバイダーをブラインドで比較する独自の評価を実施しており、その結果Grok Voiceが1位を獲得した。

数字で見ると差は明確だ。TTFAの平均は1秒未満で、最も近い競合の約5倍速い。X上で実施された4,500人規模の投票では、Grok Voiceのクローン音声と本物の人間の声を聞き分けられた人がほぼ半々だった。音声合成の品質が人間と見分けがつかないレベルに達していることを示すデータとして、これは説得力がある。

Big Bench Audio(音声推論のリーディングベンチマーク)でも1位を獲得しており、単に「自然な声」だけでなく、音声ベースの推論タスクでもトップクラスのパフォーマンスを出している。

料金と技術仕様

開発者にとって気になるのは料金だろう。

Grok Voice Agent APIは**1分あたり0.05ドル(約7.5円)**のフラットレート。OpenAI Realtime APIのおよそ半額にあたる。STT(音声認識)APIは1時間あたり0.10〜0.20ドルで、25以上の言語に対応する。Voice Agent API全体では100以上の言語をサポートしており、言語の自動検出も備えている。

APIの仕様はOpenAI Realtime API互換で設計されており、既存のOpenAIベースの音声エージェントからの移行コストが低い。xAI公式のLiveKitプラグインも提供されている。

興味深いのは、このSTTエンジンがTesla車載のGrok Voice音声アシスタントと同じスタックで動いているという点だ。車内の騒がしい環境で鍛えられた音声認識が、そのまま開発者向けAPIに降りてきた形になる。

何ができるのか

Grok Voice APIの差別化ポイントは、単なるTTSを超えた部分にある。

テキストプロンプトで音声のトーンをコントロールできる。「共感的に」「プロフェッショナルに」「落ち着いた口調で」といった指示を渡すと、それに応じた感情表現で音声が生成される。カスタムボイスクローニングにも対応しており、特定の人物の声を再現した音声エージェントを構築できる。

さらに、リアルタイムのツール呼び出し——Web検索やX検索——を音声会話中に実行できる。たとえばユーザーが「今日のニュースを教えて」と言えば、エージェントがリアルタイムでXを検索し、結果を音声で伝える。LLMの知識カットオフに制限されない音声エージェントが実現する。

xAIの音声AI戦略

xAIが音声に力を入れる背景には、明確な布石がある。

5月にはGrokの音声クローニング機能(有名人やユーザー自身の声でGrokに話させる)をリリースし、Grok 4.3のSkills機能(永続ワークフロー)と組み合わせて「声で操作する常駐エージェント」のインフラを整えつつある。

今回のVapiとの提携は、その技術をサードパーティの開発者エコシステムに開放する動きだ。Vapiは音声エージェント構築プラットフォームとしてRetell AIやDeepgramと並ぶ主要プレイヤーで、250万以上のエージェントが動いている。このインフラのデフォルトエンジンを押さえたことは、ElevenLabsやOpenAIの音声APIに対する直接的な挑戦になる。

正直な評価

速度と価格では文句なしだ。TTFA 1秒未満でOpenAIの半額という組み合わせは、プロトタイプから本番運用まで幅広い層に刺さる。

一方で、Grok Voiceの日本語対応がどこまで実用レベルかは未知数だ。100以上の言語をサポートするとあるが、英語以外の感情表現や自然さがどこまで保たれるかは、実際に試してみないとわからない。音声クローニングの日本語対応も明確にはアナウンスされていない。

また、xAIのプラットフォームに依存するリスクもある。xAIは急速に機能を追加しているが、API仕様の安定性やサポート体制はElevenLabsやOpenAIに比べるとまだ実績が浅い。本番環境で大量トラフィックを流す場合は、SLAの確認が必要だろう。

それでも、音声エージェントの開発者にとっては無視できない選択肢が1つ増えた。特に「速度が命」のリアルタイム通話系ユースケースでは、現時点で最もコストパフォーマンスの高い選択肢かもしれない。

関連記事