Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API

ElevenLabsのボイスクローンは精度が高い。ただし、最低30分の学習データが推奨で、Creatorプラン（月$22）以上が必要になる。

xAIが4月30日に発表したGrok Custom Voicesは、この常識を壊しにきた。録音1分、追加料金なし。

Grok Custom Voices

何ができるのか

Grok Custom Voicesは、自分の声を1分間録音するだけでボイスクローンを作成し、そのままGrokのTTS APIやVoice Agent APIで使えるようにする機能だ。

仕組みはシンプルだ。APIに音声を送ると、2段階の本人確認が走る。まず音声をSTT（音声認識）で文字起こしし、指定されたパスフレーズと一致するか照合。次にスピーカー埋め込み（話者の声紋ベクトル）で、録音者本人であることを検証する。両方パスして初めてクローンが作成される。

つまり、他人の声を勝手にクローンすることはできない。 本人がパスフレーズを読み上げる必要がある。ディープフェイク対策を最初から設計に組み込んでいるのは、正直よくできていると思う。

APIでの使い方

カスタムボイスの作成はAPIから直接行える。

curl -X POST "https://api.x.ai/v1/voice-cloning/create" \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "audio=@my_voice_sample.wav" \
  -F "passphrase=The quick brown fox jumps over the lazy dog" \
  -F "name=my-custom-voice"

作成したボイスIDは、既存のTTS APIにそのまま渡せる。

curl -X POST "https://api.x.ai/v1/audio/speech" \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts",
    "input": "こんにちは、カスタムボイスのテストです。",
    "voice": "custom-my-custom-voice"
  }'

Voice Agent APIでも同じボイスIDが使えるので、自分の声で顧客対応するAIエージェントを構築できる。

80以上のプリセットと28言語対応

カスタムボイスに加え、プリセットボイスも80種類以上・28言語対応。Voice Library機能でチームのボイスを共有・管理できる。エンタープライズを意識した設計だ。

ElevenLabsとの比較

現時点でのボイスクローン市場のリーダーはElevenLabsだ。比較すると差が際立つ。

	Grok Custom Voices	ElevenLabs
必要な録音時間	1分	30分推奨
追加料金	なし	Creator $22/月〜
本人確認	2段階（STT+声紋）	同意確認のみ
対応言語	28言語	32言語
音質	未知数	業界最高水準

ElevenLabsの音質は業界トップだ。Grokがどこまで迫れるかは未知数だが、「1分・無料・セキュア」のパッケージはAPI中心の開発者に刺さるだろう。

何が可能になるのか

この機能が無料で開放されたことで、いくつかのユースケースが現実的になった。

ブランド音声の統一。 企業が自社のブランドボイスをクローンし、電話対応から動画ナレーションまで統一した声を使える。Starlinkでは既にこの運用が始まっている。

声を失った人へのアクセシビリティ。 ALS等で発声困難な方が、元気だった頃の声をクローンしておけばAIが「自分の声」で代弁してくれる。

コンテンツの量産。 台本を書くだけで自分の声のポッドキャストや教育動画を作れる。

気になる点

制約もある。

既存の録音からはクローンできない。 過去の音声素材を使った再現は不可。本人がリアルタイムでパスフレーズを読む必要がある。亡くなった方の声の再現には使えない。

音質もまだベータ段階だ。ElevenLabsが長年磨いてきた品質に、1分の録音で追いつけるかは未知数。日本語のクローン品質も未検証で、使ってみないとわからない。

Grok音声エコシステムの全体像

xAIはここ2週間で音声関連のAPIを立て続けに出している。

4月17日にGrok STT/TTS APIで音声認識・合成の基盤を公開。4月23日にVoice Agent APIで電話対応AIの基盤を整えた。そして今回のCustom Voicesで「声のカスタマイズ」が加わった。

3つが揃い、「自分の声で、AIエージェントが電話対応する」パイプラインがAPI経由で組めるようになった。しかもTTS価格はElevenLabsの10分の1以下。音質勝負はこれからだが、価格とセキュリティでは明確にリードしている。

Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API

何ができるのか

APIでの使い方

80以上のプリセットと28言語対応

ElevenLabsとの比較

何が可能になるのか

気になる点

Grok音声エコシステムの全体像

関連記事

1秒未満で返答するAI音声 — Grok Voiceが250万以上の音声エージェントのデフォルトに

Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上

映像と一緒にセリフも効果音も出てくる — Grok Imagine Video 1.5、動画生成AIリーダーボード1位の中身