電話営業の成約率20%、サポート解決率70% — xAIの音声エージェントがStarlinkで出した実績
電話営業のコンバージョン率20%、カスタマーサポートの自律解決率70%。
この数字を叩き出しているのは、人間のオペレーターではない。xAIが4月23日にリリースした音声エージェントモデル「grok-voice-think-fast-1.0」が、Starlinkの電話対応で実際に出している成績だ。
音声AIといえばElevenLabsのリアルな声質や、OpenAIのAdvanced Voice Modeが注目を集めている。だが今回のxAIの発表が異質なのは、「声がきれい」ではなく「仕事ができる」ことを前面に押し出した点にある。
「考えてから話す」モデル
grok-voice-think-fast-1.0の最大の特徴は、バックグラウンド推論だ。
通常の音声AIは、ユーザーの発話を受け取るとすぐに応答を生成する。シンプルな質問なら問題ないが、複雑なワークフロー——たとえば顧客の住所変更、プラン変更、支払い方法の更新を1回の通話で処理する——になると、途端に精度が落ちる。
grok-voice-think-fast-1.0は、応答を返す前にバックグラウンドで推論を走らせる。考えている間もレスポンスのレイテンシには影響しない、とxAIは主張している。人間のオペレーターが「少々お待ちください」と言って調べるのと同じだが、待ち時間が発生しないのが違いだ。
この推論能力のおかげで、メールアドレス、住所、電話番号、口座番号といった構造化データを音声から高精度に抽出できる。早口でも、訛りが強くても、言い直しが入っても対応する。音声AIが苦手とするエッジケースを、推論で事前に検知して処理する設計だ。
Starlinkで何が起きているのか
具体的な運用実績が公開されているのが、このモデルの説得力を高めている。
Starlinkでは、grok-voice-think-fast-1.0が電話営業と顧客サポートの両方を担当している。営業では商品説明からクロージングまでをAIが一貫して処理し、コンバージョン率20%を達成。人間のトップセールスと遜色ない水準だ。
サポート側では、問い合わせの70%をAIが自律的に解決している。残り30%が人間に引き継がれる形だが、それでも人間のオペレーターの負荷は大幅に下がっている。多言語対応も標準で組み込まれており、グローバル展開しているStarlinkの運用に適している。
正直、ここまで具体的な数字を出してきたのは驚きだった。AI音声エージェントの導入事例は「コスト削減」や「効率化」を謳うものが多いが、コンバージョン率や解決率を公開しているケースは少ない。
他の音声AIと何が違うのか
音声AI市場は混み合っている。ElevenLabsは声の品質で圧倒的だし、先日はGrok自身もSTT/TTS APIを別途リリースしている。OpenAIのGPT-4oベースのAdvanced Voice Modeもある。
grok-voice-think-fast-1.0が狙っているのは、これらとは少し違うポジションだ。「声がきれい」「応答が速い」ではなく、**「複雑なビジネスワークフローを音声で完結させる」**ことに特化している。ツールコーリングに最適化されており、CRMへのデータ入力、支払い処理、アカウント操作といった実務処理を音声通話の中で実行できる。
ElevenLabsで美しいナレーションは作れるが、そのナレーションが顧客のプラン変更を処理してくれるわけではない。grok-voice-think-fast-1.0は「声」ではなく「仕事」のモデルだ。
懸念点
とはいえ、気になるところもある。
Starlinkへの依存。 現時点で公開されている実績はStarlinkのみ。xAI(= マスク)とStarlink(= マスク)は同一グループなので、他社への展開でも同じ成績が出るかは未知数だ。パートナー企業での実績が今後の評価を左右する。
料金体系が不明。 記事執筆時点で公式の価格は未発表。先にリリースされたGrok STT/TTS APIは競合比で安価だったが、この推論機能付きモデルがどのくらいのコストになるかは気になるところだ。
日本語対応の質。 多言語対応を謳っているが、日本語の敬語や電話特有の定型表現(「お世話になっております」「担当にお繋ぎいたします」)をどこまで自然にこなせるかは実際に試さないとわからない。
AIが電話を取る時代の本格到来
コールセンターのAI化は何年も前から言われてきたが、「成約率20%」という数字は、この流れがいよいよ実用段階に入ったことを示している。
注目すべきは、このモデルが「対話」だけでなく「業務処理」まで含めて設計されている点だ。電話を受けて質問に答えるだけでなく、その場でCRMを更新し、プランを変更し、支払いを処理する。音声はインターフェースに過ぎず、本質はバックエンドのワークフロー自動化にある。
カスタマーサポートや電話営業を運用しているチームにとって、grok-voice-think-fast-1.0は無視できない選択肢になりつつある。料金が判明し、Starlink以外での実績が出てきたタイミングで、改めて詳細をレポートしたい。
関連記事
Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上
xAIがGrok STT/TTS APIを公開。文字起こし$0.10/時間、音声合成$4.20/100万文字。ElevenLabsの10分の1以下の価格で精度は上回る。料金・性能・使い所を整理した。
APIもない10年前のソフトすら動かせる — Grok Computerという「画面を見るAI」の異質さ
xAIのGrok Computerは画面のピクセルを読み取ってPCを自律操作するAIエージェント。Perplexity ComputerやClaude Coworkとの違い、Macrohard構想の全体像を整理する。
Grok 4.20 — 「4つの頭脳が議論してから答える」AIは、ハルシネーションを終わらせるか
xAIのGrok 4.20を解説。4エージェント合議で業界最高の非ハルシネーション率78%を達成した仕組み、SuperGrok Heavyの16エージェント構成、料金、週次改善アーキテクチャの実態を紹介