「こんな声で」と文章で指定するだけ — 無料の音声合成AI VoxCPM2が面白い

音声合成AIに声のサンプルを渡して真似させる。これは珍しくない。ElevenLabsもPlayHTもやっている。

VoxCPM2

VoxCPM2がユニークなのは、声をテキストで設計できるところだ。

「30代男性、落ち着いたバリトン、ゆっくりめのペースで、少し笑顔を含んだトーン」。こう書くだけで、その条件に合った声が生成される。サンプル音声は不要。この機能を「ボイスデザイン」と呼ぶ。

しかもApache-2.0ライセンスで商用利用可能。8GB VRAMのGPUがあればローカルで動く。

何がElevenLabsと違うのか

VoxCPM2は中国の研究機関OpenBMBが2026年4月にリリースした、2Bパラメータの音声合成モデルだ。30言語に対応し、48kHzの高音質で出力する。200万時間以上の多言語音声データで訓練されている。

ElevenLabsとの最大の違いは、お金がかからないことだ。ElevenLabsは無料枠が月1万文字程度で、本格的に使うならPro（月$22〜）が必要になる。VoxCPM2はOSSなので、GPUとAPIキー（もしクラウドモデルを使う場合）があれば上限なく使える。

音声の類似度（ボイスクローンの精度）では、一部のベンチマークでElevenLabsを上回ったという報告がある。ただし総合的な品質では、ElevenLabsのほうが安定しているという評価が多い。特に英語以外の言語では、まだ差がある印象だ。

VoxCPM2には主に3つの機能がある。

テキスト音声合成（TTS） — 30言語のテキストを入力すると、言語タグなしで自動判別して読み上げる。日本語も対応しているが、品質はまだ英語・中国語に比べると一段落ちる。

ボイスデザイン — 前述の通り、自然言語の説明文だけで新しい声を作れる。ポッドキャスト用のナレーター、キャラクターの声、企業の自動応答システムなど、「まだ存在しない声」を必要とする場面で重宝する。

コントローラブル・クローニング — 短い音声サンプル（数秒で十分）から声を複製し、さらに感情やペース、表現スタイルを調整できる。元の声質を維持したまま「もっと元気に」「もう少しゆっくり」といった指示が通る。

必要なのはCUDA対応GPUとPython環境だけだ。

8GB VRAMで動作するとされているが、長い文章を一度に合成する場合は12GB以上あったほうが安定する。Hugging Faceからモデルをダウンロードし、数行のPythonコードで合成できる。

正直なところ、セットアップの敷居はElevenLabsのAPI一行呼び出しに比べればずっと高い。Docker環境やGPUドライバの設定に慣れていない人にはハードルだろう。手軽さを取るならElevenLabs、コストとカスタマイズ性を取るならVoxCPM2、という棲み分けになる。

Apache-2.0ライセンスの意味するところは大きい。

たとえばSaaS製品にTTS機能を組み込む場合、ElevenLabsのAPIを使えば1文字あたり課金される。ユーザーが増えるほどコストが膨らむ。VoxCPM2をセルフホストすれば、GPU代だけで済む。月間数万件の音声生成があるサービスなら、コスト差は桁違いになりうる。

教育コンテンツの多言語ナレーション、ゲームのNPCボイス、社内向け動画の自動ナレーション。こういった「大量だが品質はそこそこで良い」用途では、VoxCPM2のコストメリットが最も活きる。

逆に、プロの声優レベルの表現力が求められる広告ナレーションやオーディオブックでは、ElevenLabsや人間の声のほうが確実だ。

日本語の品質は発展途上だ。中国語と英語に比べると、イントネーションの自然さに差がある。日本語メインで使うなら、生成結果をこまめに確認する必要がある。

また、2Bパラメータモデルとしては十分優秀だが、ElevenLabsが長年磨いてきたプロソディ（韻律）の安定性にはまだ追いついていない。短い文章では気にならないが、5分以上の連続音声ではトーンが単調になりがちだ。

Hugging Face でモデルとデモが公開されている。まずはデモページで自分の用途に合うかを確認し、良さそうならローカル環境にセットアップするのがいい。

ボイスデザイン機能は一度触ると面白くて止まらない。「70代の穏やかな女性、少し掠れた声」と書くだけで、それらしい声が生成されるのは素直に驚く。