FlowTune Media

Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角

1分のナレーションが約3〜5円。1時間分を生成しても180〜270円。

Gemini 3.1 Flash TTS

Googleが4月15日にリリースしたGemini 3.1 Flash TTSは、価格だけ見ると「何かの間違いか?」と思うレベルだ。しかも安いだけではない。200種類以上のオーディオタグで声のスタイル・ペース・感情を自然言語で制御でき、70以上の言語をサポートする。

AI音声合成の業界地図が、また動いた。

「演技指導」ができるTTS

これまでのTTSモデルは、テキストを入力して「それっぽい声」で読ませるだけのものが多かった。声のトーンや感情を変えたければ、別の音声を選ぶか、SSMLタグの微調整を繰り返すしかない。

Gemini 3.1 Flash TTSは発想が違う。テキストの中に自然言語のタグを埋め込んで「演技指導」ができる。「[申し訳なさそうに] [ゆっくり] 本当にすみませんでした」と書けば、その通りの音声が出てくる。タグは200種類以上あり、声の高さ、速度、感情、アクセント、間の取り方まで指定可能だ。

もうひとつ目を引くのが、ネイティブのマルチスピーカー対話だ。ポッドキャストやドラマのように複数の話者が自然に掛け合うシーンを、1回の生成で作れる。従来は話者ごとに個別生成して切り貼りする必要があったので、制作効率はかなり上がる。

30種類のプリセット音声から選べて、日本語を含む70以上の言語に対応。Google AI Studio、Vertex AI、Google Vidsから利用でき、生成された音声にはSynthIDの透かしが自動で埋め込まれる。

ElevenLabsとの立ち位置の違い

AI音声合成と言えば、ElevenLabsが事実上のリーダーだ。では、Gemini 3.1 Flash TTSはその牙城を崩すのか。

結論から言えば、用途が違う

Artificial AnalysisのTTSリーダーボードでは、Gemini 3.1 Flash TTSのEloスコアは1,211。ElevenLabsは依然として1位を維持している。音質の自然さ、特にボイスクローニング(自分の声を再現する機能)ではElevenLabsが依然として技術的リーダーだ。

一方、Gemini 3.1 Flash TTSが勝るのは以下の点だ。

  • タグ制御の細かさ: 200以上のオーディオタグ vs ElevenLabsの限定的な制御
  • 言語の幅: 70以上 vs ElevenLabsの約32言語
  • 価格: 桁が違う。ElevenLabsのProプランは月額$99で50万クレジット。Geminiは従量課金で、同じ量の生成なら数十分の一になる場面もある
  • Googleエコシステムとの統合: Google Vids、YouTube Shortsとの直接連携

逆に、「クライアントに提出するナレーション」のような品質最優先のケースでは、ElevenLabsの方が安心だろう。Geminiは「大量に・安く・細かく制御したい」用途で威力を発揮する。

料金体系 — 従量課金の計算方法

Gemini 3.1 Flash TTSはトークン課金だ。テキスト(入力)と音声(出力)で単価が異なる。

項目 通常 バッチ
入力(テキスト) $1.00/100万トークン $0.50/100万トークン
出力(音声) $20.00/100万トークン $10.00/100万トークン

テキスト4文字で約1トークン。日本語は1文字2〜3トークン程度になるため、英語より若干コストが上がる点は意識しておきたい。

無料枠もある。Google AI Studioからなら、レート制限はあるものの費用ゼロで試せる。ただし無料枠のデータはGoogleのサービス改善に使われる可能性があるので、機密性の高いコンテンツには有料APIを使うべきだ。

何が変わるか — 個人クリエイターの音声コストが消える

この価格帯の音声AIが出てきたことで、現実的になるシナリオがいくつかある。

ブログ記事の音声版を自動生成するのは、もうコスト面の障壁がない。毎日1本、3,000字の記事を音声化しても月額数百円だ。多言語展開も同様で、日本語の解説動画を英語・中国語・韓国語で出し直す作業が、人力の翻訳+ナレーション録りなしで回せるようになる。

オーディオタグの細かさを活かせば、ゲームのNPCボイスやインタラクティブな教育コンテンツにも使えるだろう。「怒っている」「囁いている」「皮肉を込めて」といった感情制御が、コードから直接指示できるのは開発者にとって大きい。

注意しておくべき点

万能ではない。

まず、ボイスクローニングに対応していない。自分の声やブランドの声で読ませたい場合は、ElevenLabsなど他のサービスが必要になる。

次に、SynthIDの透かし。ユーザーには聞こえないが、Googleのツールでは検出できる。商用利用で「AI生成音声」と明示義務がある地域では便利だが、透かしを外せない以上、用途によっては制約になる。

そして日本語の品質。70言語対応とはいえ、日本語のイントネーションや敬語のニュアンスがどこまで正確かは、実際に触らないとわからない。英語ネイティブ品質がそのまま日本語にも当てはまるとは限らない。

それでも、この価格でこの制御性。試さない理由を探す方が難しい。

関連記事