Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上

4月17日、xAIがGrok STT/TTS APIを公開した。音声認識（Speech-to-Text）と音声合成（Text-to-Speech）の2つのAPIで、Tesla車両やStarlinkのカスタマーサポートで使われてきた音声技術を、そのまま開発者向けに開放した形になる。

Grok STT/TTS API

注目すべきは価格だ。音声合成は100万文字あたり$4.20。ElevenLabsの$50、OpenAIの$30と比べると、文字通り桁が違う。

何ができるのか

Grok STT（音声認識）

音声ファイルやリアルタイムの音声ストリームをテキストに変換するAPI。バッチ処理（REST API経由）とリアルタイム（WebSocket経由）の2モードを備える。

対応言語は25。12種類の音声フォーマットを受け付け、話者分離（誰が話しているか）、単語レベルのタイムスタンプ、数字・日付・通貨の自動正規化にも対応する。会議の文字起こし、コールセンターの通話分析、ポッドキャストの書き起こしなど、用途の幅は広い。

Grok TTS（音声合成）

テキストを自然な音声に変換するAPI。5つのボイス（Ara、Eve、Leo、Rex、Sal）から選べる。20言語に対応。

面白いのが、インラインの「表現タグ」だ。テキスト中に[laugh]や[sigh]と書くと、その場所で笑いやため息が入る。<whisper>ここは小声で</whisper>のようにラッピングタグも使える。単に文章を読み上げるだけでなく、感情のニュアンスまで制御できる。ポッドキャスト制作や、AIボイスエージェントの自然さを追求する開発者にとっては大きな武器になる。

料金比較 — 他社との差が露骨

サービス	音声合成（100万文字）	文字起こし（1時間）
Grok	$4.20	$0.10（バッチ） / $0.20（リアルタイム）
ElevenLabs	$50.00	—
OpenAI	$30.00	$0.36
Deepgram	—	$0.25
AssemblyAI	—	$0.65

Grok TTSはElevenLabsの約12分の1、OpenAIの約7分の1。日本円にすると100万文字で約630円。短めの記事1本を読み上げるのに数円程度の計算だ。

Grok STTのバッチ処理は1時間あたり$0.10（約15円）。1時間の会議を文字起こしして15円というのは、これまでの相場を考えると破格と言っていい。

精度 — 安かろう悪かろうではない

価格だけなら「品質を犠牲にしているのでは」と疑うところだが、xAIはベンチマーク結果を公開している。

電話音声のエンティティ認識（名前・口座番号・日付の正確さ）では、Grok STTのエラー率は5.0%。ElevenLabsの12.0%、Deepgramの13.5%、AssemblyAIの21.3%を大きく下回る。動画やポッドキャストの文字起こしでは、GrokとElevenLabsが2.4%で並び、DeepgramとAssemblyAIは3.0〜3.2%。

つまり、最も安いのに、最も正確。少なくともxAIが公開したベンチマークの範囲では、そういう結果になっている。

正直なところ、独自ベンチマークなので鵜呑みにはできない。ただ、Tesla車内の音声認識やStarlinkの電話サポートという、ノイズが多くリアルタイム性が求められる現場で鍛えられた技術であることを考えると、実力は本物だろうと筆者は見ている。

技術の出自 — なぜこの価格が出せるのか

Grok Voice APIの説明には「Tesla車両、Starlink顧客サポートと同じスタックで構築」とある。

これはつまり、xAIが音声技術をゼロから作ったわけではないということだ。Teslaの車内音声操作とStarlinkの自動応答で何百万ものインタラクションを処理してきた実績がある。その規模で最適化されたインフラの上に載せているから、この価格が出せる。

SpaceXとxAIの経営統合（2026年2月発表）の効果もここに出ている。Starlinkの通信インフラとxAIのAI技術が一つの傘の下に入ったことで、音声処理のコスト構造自体が他社と異なる。

使い所と、現時点での限界

向いているケースは明確だ。

大量の音声を処理する必要があるプロジェクト — コールセンターの通話分析、動画コンテンツの字幕生成、ポッドキャストの自動書き起こし — では、コスト面で圧倒的な優位性がある。1日に100時間分の音声を処理しても、バッチなら$10。ElevenLabsやAssemblyAIでやれば数十ドルから数百ドルかかる処理が、桁違いに安くなる。

一方で、気になる点もある。

TTSのボイスは5種類。ElevenLabsの数千種類のボイスライブラリやボイスクローニング機能と比べると、選択肢はかなり限られる。「この声で」というこだわりがある用途には向かない。

また、API公開直後のため、SDKやライブラリの充実度は未知数だ。ElevenLabsやOpenAIのようなエコシステムがまだ育っていない。ドキュメントはxAI開発者ポータルで公開されているが、コミュニティの知見やサンプルコードが蓄積されるまでには時間がかかるだろう。

この先に見えるもの

Grokの音声APIが面白いのは、xAIのLLM（Grokモデル）と組み合わせたときの可能性だ。

STTで音声を文字に変換し、Grokの推論モデルで処理し、TTSで音声に戻す。この一連のパイプラインをxAI一社のAPIで完結できる。レイテンシの最適化も、料金体系の統一も、サポート窓口の一本化も、すべてワンストップで済む。

AIボイスエージェントを作ろうとしている開発者にとって、「音声認識はA社、推論はB社、音声合成はC社」というマルチベンダー構成は運用の手間が大きい。Grokが音声から推論、合成まで一気通貫で提供する世界は、開発体験として相当シンプルになる。

さらに言えば、この価格設定は他社への強烈なプレッシャーになる。ElevenLabsやOpenAIが黙っているとは思えない。音声AI全体のコストが下がる方向に動くなら、それは開発者にとってもエンドユーザーにとっても歓迎すべきことだ。

音声AIの市場は、テキストAIに比べてまだ価格競争が本格化していなかった。Grokの参入で、その状況が変わり始めた。

Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上

何ができるのか

Grok STT（音声認識）

Grok TTS（音声合成）

料金比較 — 他社との差が露骨

精度 — 安かろう悪かろうではない

技術の出自 — なぜこの価格が出せるのか

使い所と、現時点での限界

この先に見えるもの

関連記事

Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API

OpenAIの音声AIが「考えてから話す」ようになった — GPT-Realtime-2と3モデル体制の全容

車のダッシュボードがAIの激戦区になった — GrokがCarPlayに3番目のAIとして乗り込む