Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API
ElevenLabsのボイスクローンは精度が高い。ただし、最低30分の学習データが推奨で、Creatorプラン(月$22)以上が必要になる。
xAIが4月30日に発表したGrok Custom Voicesは、この常識を壊しにきた。録音1分、追加料金なし。

何ができるのか
Grok Custom Voicesは、自分の声を1分間録音するだけでボイスクローンを作成し、そのままGrokのTTS APIやVoice Agent APIで使えるようにする機能だ。
仕組みはシンプルだ。APIに音声を送ると、2段階の本人確認が走る。まず音声をSTT(音声認識)で文字起こしし、指定されたパスフレーズと一致するか照合。次にスピーカー埋め込み(話者の声紋ベクトル)で、録音者本人であることを検証する。両方パスして初めてクローンが作成される。
つまり、他人の声を勝手にクローンすることはできない。 本人がパスフレーズを読み上げる必要がある。ディープフェイク対策を最初から設計に組み込んでいるのは、正直よくできていると思う。
APIでの使い方
カスタムボイスの作成はAPIから直接行える。
curl -X POST "https://api.x.ai/v1/voice-cloning/create" \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F "audio=@my_voice_sample.wav" \
-F "passphrase=The quick brown fox jumps over the lazy dog" \
-F "name=my-custom-voice"
作成したボイスIDは、既存のTTS APIにそのまま渡せる。
curl -X POST "https://api.x.ai/v1/audio/speech" \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts",
"input": "こんにちは、カスタムボイスのテストです。",
"voice": "custom-my-custom-voice"
}'
Voice Agent APIでも同じボイスIDが使えるので、自分の声で顧客対応するAIエージェントを構築できる。
80以上のプリセットと28言語対応
カスタムボイスに加え、プリセットボイスも80種類以上・28言語対応。Voice Library機能でチームのボイスを共有・管理できる。エンタープライズを意識した設計だ。
ElevenLabsとの比較
現時点でのボイスクローン市場のリーダーはElevenLabsだ。比較すると差が際立つ。
| Grok Custom Voices | ElevenLabs | |
|---|---|---|
| 必要な録音時間 | 1分 | 30分推奨 |
| 追加料金 | なし | Creator $22/月〜 |
| 本人確認 | 2段階(STT+声紋) | 同意確認のみ |
| 対応言語 | 28言語 | 32言語 |
| 音質 | 未知数 | 業界最高水準 |
ElevenLabsの音質は業界トップだ。Grokがどこまで迫れるかは未知数だが、「1分・無料・セキュア」のパッケージはAPI中心の開発者に刺さるだろう。
何が可能になるのか
この機能が無料で開放されたことで、いくつかのユースケースが現実的になった。
ブランド音声の統一。 企業が自社のブランドボイスをクローンし、電話対応から動画ナレーションまで統一した声を使える。Starlinkでは既にこの運用が始まっている。
声を失った人へのアクセシビリティ。 ALS等で発声困難な方が、元気だった頃の声をクローンしておけばAIが「自分の声」で代弁してくれる。
コンテンツの量産。 台本を書くだけで自分の声のポッドキャストや教育動画を作れる。
気になる点
制約もある。
既存の録音からはクローンできない。 過去の音声素材を使った再現は不可。本人がリアルタイムでパスフレーズを読む必要がある。亡くなった方の声の再現には使えない。
音質もまだベータ段階だ。ElevenLabsが長年磨いてきた品質に、1分の録音で追いつけるかは未知数。日本語のクローン品質も未検証で、使ってみないとわからない。
Grok音声エコシステムの全体像
xAIはここ2週間で音声関連のAPIを立て続けに出している。
4月17日にGrok STT/TTS APIで音声認識・合成の基盤を公開。4月23日にVoice Agent APIで電話対応AIの基盤を整えた。そして今回のCustom Voicesで「声のカスタマイズ」が加わった。
3つが揃い、「自分の声で、AIエージェントが電話対応する」パイプラインがAPI経由で組めるようになった。しかもTTS価格はElevenLabsの10分の1以下。音質勝負はこれからだが、価格とセキュリティでは明確にリードしている。
関連記事
Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上
xAIがGrok STT/TTS APIを公開。文字起こし$0.10/時間、音声合成$4.20/100万文字。ElevenLabsの10分の1以下の価格で精度は上回る。料金・性能・使い所を整理した。
AI音声合成ツール比較 2026年版 — ElevenLabs・Gemini TTS・Grok TTS、結局どれを使えばいいのか
2026年のAI音声合成(TTS)ツールを徹底比較。ElevenLabs、Gemini 3.1 Flash TTS、Grok TTS、Voxtral、VoxCPM2の料金・品質・日本語対応を整理し、用途別のおすすめを解説する。
AIに同じバグを8通り直させて、一番いい答えだけ残す — Grok Buildの仕組みと現在地
xAI開発中のGrok Buildを解説。8並列AIとArena Modeで解法を自動評価するCLIツールの全容。