「こんな声で」と文章で指定するだけ — 無料の音声合成AI VoxCPM2が面白い
音声合成AIに声のサンプルを渡して真似させる。これは珍しくない。ElevenLabsもPlayHTもやっている。

VoxCPM2がユニークなのは、声をテキストで設計できるところだ。
「30代男性、落ち着いたバリトン、ゆっくりめのペースで、少し笑顔を含んだトーン」。こう書くだけで、その条件に合った声が生成される。サンプル音声は不要。この機能を「ボイスデザイン」と呼ぶ。
しかもApache-2.0ライセンスで商用利用可能。8GB VRAMのGPUがあればローカルで動く。
何がElevenLabsと違うのか
VoxCPM2は中国の研究機関OpenBMBが2026年4月にリリースした、2Bパラメータの音声合成モデルだ。30言語に対応し、48kHzの高音質で出力する。200万時間以上の多言語音声データで訓練されている。
ElevenLabsとの最大の違いは、お金がかからないことだ。ElevenLabsは無料枠が月1万文字程度で、本格的に使うならPro(月$22〜)が必要になる。VoxCPM2はOSSなので、GPUとAPIキー(もしクラウドモデルを使う場合)があれば上限なく使える。
音声の類似度(ボイスクローンの精度)では、一部のベンチマークでElevenLabsを上回ったという報告がある。ただし総合的な品質では、ElevenLabsのほうが安定しているという評価が多い。特に英語以外の言語では、まだ差がある印象だ。
3つの使い方
VoxCPM2には主に3つの機能がある。
テキスト音声合成(TTS) — 30言語のテキストを入力すると、言語タグなしで自動判別して読み上げる。日本語も対応しているが、品質はまだ英語・中国語に比べると一段落ちる。
ボイスデザイン — 前述の通り、自然言語の説明文だけで新しい声を作れる。ポッドキャスト用のナレーター、キャラクターの声、企業の自動応答システムなど、「まだ存在しない声」を必要とする場面で重宝する。
コントローラブル・クローニング — 短い音声サンプル(数秒で十分)から声を複製し、さらに感情やペース、表現スタイルを調整できる。元の声質を維持したまま「もっと元気に」「もう少しゆっくり」といった指示が通る。
ローカルで動かすには
必要なのはCUDA対応GPUとPython環境だけだ。
8GB VRAMで動作するとされているが、長い文章を一度に合成する場合は12GB以上あったほうが安定する。Hugging Faceからモデルをダウンロードし、数行のPythonコードで合成できる。
正直なところ、セットアップの敷居はElevenLabsのAPI一行呼び出しに比べればずっと高い。Docker環境やGPUドライバの設定に慣れていない人にはハードルだろう。手軽さを取るならElevenLabs、コストとカスタマイズ性を取るならVoxCPM2、という棲み分けになる。
商用利用のインパクト
Apache-2.0ライセンスの意味するところは大きい。
たとえばSaaS製品にTTS機能を組み込む場合、ElevenLabsのAPIを使えば1文字あたり課金される。ユーザーが増えるほどコストが膨らむ。VoxCPM2をセルフホストすれば、GPU代だけで済む。月間数万件の音声生成があるサービスなら、コスト差は桁違いになりうる。
教育コンテンツの多言語ナレーション、ゲームのNPCボイス、社内向け動画の自動ナレーション。こういった「大量だが品質はそこそこで良い」用途では、VoxCPM2のコストメリットが最も活きる。
逆に、プロの声優レベルの表現力が求められる広告ナレーションやオーディオブックでは、ElevenLabsや人間の声のほうが確実だ。
気になる点
日本語の品質は発展途上だ。中国語と英語に比べると、イントネーションの自然さに差がある。日本語メインで使うなら、生成結果をこまめに確認する必要がある。
また、2Bパラメータモデルとしては十分優秀だが、ElevenLabsが長年磨いてきたプロソディ(韻律)の安定性にはまだ追いついていない。短い文章では気にならないが、5分以上の連続音声ではトーンが単調になりがちだ。
試してみるなら
Hugging Face でモデルとデモが公開されている。まずはデモページで自分の用途に合うかを確認し、良さそうならローカル環境にセットアップするのがいい。
ボイスデザイン機能は一度触ると面白くて止まらない。「70代の穏やかな女性、少し掠れた声」と書くだけで、それらしい声が生成されるのは素直に驚く。
関連記事
Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角
Gemini 3.1 Flash TTSは200以上のタグで声の感情やペースを制御できるGoogleの音声合成モデル。料金、ElevenLabsとの違い、日本語対応の実態を整理する。
マイケル・ケインの声をAIで貸し出す時代 — ElevenLabsが「同意ベース」のセレブ音声マーケットを始めた
ElevenLabsのIconic Voice Marketplaceは、本人または権利者が承認した著名人・歴史人物の声をAIで合成して使える初の同意ベース市場。28名の初期ラインナップと業界への影響を整理する。
ElevenLabsが音声AIのオンプレ・オンデバイス展開を発表 ── データを外に出せない現場に選択肢が生まれた
ElevenLabsがオンプレ・オンデバイス展開を発表。金融・医療・車載でローカル推論可能に