評価額が1年で3倍に — ElevenLabsのシリーズDが映す「音声AI」の急拡大
$33億だった評価額が、1年で$110億になった。
ElevenLabsが2026年2月に発表したシリーズDの数字は、音声AI市場がどれだけ急激に膨らんでいるかを端的に示している。調達額は$5億(約750億円)。リードはSequoia Capital。a16zは前回の4倍、ICONIQは3倍の額を追加で投じた。既存の出資者が「もっと入れたい」と増額してくる案件は、VCの世界では最も強いシグナルのひとつだ。

ARR(年間経常収益)は$2億を超え、年末には$3.3億に届く見通し。テキスト読み上げのスタートアップが、わずか数年で数百億円規模のビジネスになっている。
なぜここまで伸びているのか
ElevenLabsの成長を支えているのは、大きく3つの流れだ。
ひとつはAIエージェントの普及。カスタマーサポート、営業電話、受付対応。AIが電話口で人間のように話す場面が増えるほど、自然な音声合成への需要は跳ね上がる。ElevenLabsのConversational AI機能はまさにこの波に乗っている。Deutsche Telekom、Revolut、Deliveroo。顧客リストに並ぶ名前を見ると、すでに「テスト導入」ではなく実運用フェーズに入っていることがわかる。
ふたつめはコンテンツのローカライズ。動画やポッドキャストを別の言語に吹き替えるDubbing機能は、クリエイターだけでなく企業の教育コンテンツや製品動画にも使われ始めている。29言語対応という幅の広さが効いている。
みっつめは音楽生成への進出。2026年3月にローンチしたElevenMusicは、ライセンス済みのデータで学習したモデルを使い、商用利用可能なAI音楽を生成できる。Sunoとは「権利の安全性」で差別化している。
$5億の使い道
ElevenLabsが公表している投資先は3つある。
マルチモーダルエージェント研究。音声だけでなく、映像と組み合わせたAIエージェントの開発に注力する。テキスト→音声→映像をワンストップで生成する未来を見据えている。直近でリリースしたElevenCreative(音声・映像・画像を統合したプロダクションツール)はその布石だろう。
グローバル展開。14都市に拠点を構える計画で、その中に東京が含まれている。日本語TTSの品質は最新のEleven v3モデルで大幅に改善されており、日本市場への本格参入の意思が見える。
オンプレミス提供。金融・医療・政府機関など、データを外に出せない組織向けに、ローカル環境で動くエンタープライズ版を展開する。オンプレミス版の早期アクセスはすでに始まっている。
料金体系の現状
個人ユーザー向けの料金も整理しておく。
無料プランは月10,000クレジット(約10分のTTS)。Starterが月$5(約750円)で30,000クレジット、Creatorが月$22(約3,300円)で100,000クレジット。Proは月$99(約14,800円)で500,000クレジット。Scaleは月$330(約49,000円)でチーム利用向け。
無料プランでも音声生成は試せるが、商用利用にはStarterプラン以上が必要。年間契約で約17%の割引がある。
気になる点もある
成長の勢いは認めつつ、いくつか気になるところはある。
まず競合の激化。OpenAIはGPT-5.4でリアルタイム音声生成を強化し、GoogleはGemini 3.1 Flash TTSをリリースした。MicrosoftもMAI-Voice-1を投入している。大手プラットフォームがこぞって音声AIに参入する中、ElevenLabsが「専業の強み」を維持し続けられるかは未知数だ。
また、著作権リスク。音楽生成分野では、AI学習データの権利問題が各国で訴訟に発展している。ElevenLabsはライセンス済みデータを使っていると主張しているが、音声クローン機能と合わせて、この分野のリスクは常についてまわる。
音声AIが「裏方のインフラ」になる日
この資金調達を見て感じるのは、ElevenLabsが「音声生成ツール」から「音声AIのインフラ」にポジションを移しつつあることだ。
APIを通じて他社のアプリに音声を提供し、エージェントの声を担い、コンテンツのローカライズを裏で支える。ユーザーがElevenLabsの名前を意識しないまま、その技術に触れている。StripeやTwilioが「決済」「通信」で同じポジションを取ったように、ElevenLabsは「声」でそこを狙っている。
$110億の評価額は、その賭けに市場が乗ったことを意味している。
関連記事
ElevenLabs Eleven v3 — 「ため息をついて」「ささやいて」が通じるAI音声の現在地
ElevenLabs Eleven v3の機能・Audio Tags・料金・日本語性能を解説。感情表現できるTTSモデルの実力と、v2.5との使い分けを整理する。
「こんな声で」と文章で指定するだけ — 無料の音声合成AI VoxCPM2が面白い
VoxCPM2は30言語対応・商用無料のOSS音声合成モデル。声を文章で設計できるボイスデザイン機能の仕組みと使い方を解説。
Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角
Gemini 3.1 Flash TTSは200以上のタグで声の感情やペースを制御できるGoogleの音声合成モデル。料金、ElevenLabsとの違い、日本語対応の実態を整理する。