FlowTune Media

AIに「声の演技指導」ができる時代が来た — Gemini 3.1 Flash TTSの200個の感情タグ

Gemini 3.1 Flash TTS

「もっと驚いた感じで」「ここはささやくように」——映画の現場で監督が俳優に出す演技指導を、テキストの中に書き込むだけでAI音声に反映できる。Googleが4月15日にリリースしたGemini 3.1 Flash TTSは、そういうモデルだ。

テキストに「演出ノート」を埋め込む

従来のTTSモデルは「何を読むか」しか指定できなかった。声のトーンやテンポを変えたければ、別途パラメータを調整するか、SSMLタグを書く必要があった。

Flash TTSのアプローチは違う。テキストの中に[enthusiasm][whispers][curiosity]といったオーディオタグを直接埋め込む。200種類以上のタグが用意されていて、感情だけでなくペース、アクセント、声質まで制御できる。映画の台本に「ト書き」を入れる感覚に近い。

さらに面白いのが「Audio Profile」という仕組みだ。キャラクターごとに声の基本設定——トーン、ペース、アクセント——を定義しておき、シーンの説明と組み合わせて使う。対話形式のコンテンツなら、話者ごとに別の声を割り当てるマルチスピーカー出力もできる。

つまり、声優のキャスティングと演技指導を、プロンプトだけで完結させられる。

TTSランキングで世界2位に

Artificial AnalysisのTTSリーダーボードで、Flash TTSはEloスコア1,211を記録した。1位のInworld TTS 1.5 Max(1,215)に僅差で2位、ElevenLabsのEleven v3(1,179)を上回っている。

Artificial Analysisはこのモデルを「高品質かつ低コスト」のゾーンに分類している。音質で妥協せず、価格も抑えたい開発者にとっては、かなり魅力的なポジションだ。

70以上の言語に対応しており、日本語での音声合成も可能。GIGAZINEが日本語音声を実際に試したレポートでは、感情タグによる声色の変化がきちんと反映されていたという。

料金は「音声出力」に重みがある

項目 通常料金 バッチ料金
テキスト入力 $1.00 / 100万トークン $0.50 / 100万トークン
音声出力 $20.00 / 100万トークン $10.00 / 100万トークン

入力は安い。出力に重みがある構造だ。バッチモードを使えば半額になるので、リアルタイム性が不要なポッドキャストやナレーション制作なら、コストをかなり抑えられる。

Google AI Studioでは無料で試せるデモも公開されている。aistudio.google.comにアクセスし、Audio Playgroundでgemini-3.1-flash-tts-previewを選ぶだけだ。コードを書く必要はない。

ElevenLabsとの棲み分け

正直に言えば、「声のクローン」をやりたいならElevenLabsの方がまだ強い。数秒のサンプル音声から特定の人物の声を再現する技術では、ElevenLabsが業界をリードしている。

一方、Flash TTSが圧倒的に優れているのは「制御の粒度」と「言語の広さ」だ。200以上のオーディオタグは、ElevenLabsの限定的なコントロールパラメータとは次元が違う。70以上の言語サポートも、ElevenLabsの約32言語を大きく引き離している。

整理すると:

  • 特定の声を再現したい → ElevenLabs
  • 感情豊かなナレーションを量産したい → Gemini 3.1 Flash TTS
  • 多言語コンテンツを作りたい → Gemini 3.1 Flash TTS

何が変わるのか

このモデルで面白いのは、「声の制作」のハードルが劇的に下がることだ。

たとえば、オーディオブックの制作。これまでプロのナレーターに依頼すれば1時間あたり数万円かかっていた作業が、テキストに感情タグを埋め込むだけでそれなりのクオリティが出せるようになる。しかも、「ここはもう少し悲しげに」といった調整が、テキストを書き換えるだけで何度でもやり直せる。

教育コンテンツとの相性も良い。70以上の言語に対応しているということは、同じ教材を多言語で展開するときに、言語ごとにナレーターを手配する必要がない。Audio Profileでキャラクターを定義しておけば、どの言語でも同じ「先生」の声で統一できる。

もう一つ、ゲーム開発のプロトタイピングにも使えそうだ。NPCの台詞を全部仮音声で入れておき、ゲームの雰囲気を確認してから、本番では声優に差し替える——という使い方ができる。マルチスピーカー対応なので、キャラクターごとに別の声を割り当てるのも簡単だ。

安全対策としてのSynthID

生成されたすべての音声にはSynthIDの電子透かしが埋め込まれる。人間の耳には聞こえないが、機械的にAI生成であることを検出できる仕組みだ。ディープフェイク音声が社会問題になっている中で、この対策は必須だろう。ただし、検出の精度や回避の難しさについては、まだ検証が進んでいる段階でもある。

「読み上げ」から「演じる」へ

TTSは長い間、テキストを機械的に読み上げるだけのツールだった。Flash TTSは、そこに「演出」という概念を持ち込んだ点で一歩先に出ている。正直、まだ人間の声優を完全に置き換えるレベルではない。だが、プロトタイピングや多言語展開のように「まずは形にしたい」フェーズでは、十分すぎる品質だ。

AI Studioの無料デモで実際にタグを試すと、この「演技指導」の感覚がつかめる。テキストを書く感覚で声を作れるのは、触ってみると想像以上に面白い。

関連記事