ElevenLabsが動画生成に踏み込んだ — Avatars機能と3部門再編が意味すること
HeyGenやSynthesiaのユーザーが、ナレーション品質に不満を感じたときの定番の解決策は「音声だけElevenLabsを使う」だった。AI動画ツールの裏側で、ElevenLabsの音声合成が静かに標準インフラになっていた事実がある。
そのElevenLabsが、裏方をやめて正面から動画市場に入ってきた。
2026年6月、ElevenLabsはElevenCreativeに「Avatars」機能を追加し、トーキングヘッド動画の生成に対応した。同時に、プラットフォーム全体をElevenAgents・ElevenCreative・ElevenAPIの3部門に再編。音声合成の会社から「音と映像のインフラ」への転換を鮮明にしている。
Avatarsで何ができるのか
やることはシンプルだ。アバターを選び、スクリプトを書き、声を選んで生成する。音声合成とリップシンクが同一ワークフロー内で完結するため、動画生成ツールと音声ツールの間でファイルをやり取りする必要がない。
ElevenCreativeには年齢・性別・用途で絞り込めるアバターライブラリが用意されている。カスタムアバターを写真やプロンプトから作成し、プロジェクト間で使い回すことも可能だ。
地味に効くのがFlowsとの統合だろう。Flowsはノードベースのキャンバスで50以上のAIモデルを連結できる機能で、バッチ処理に対応している。たとえば1つのスクリプトを10言語に翻訳し、それぞれの言語に合ったアバターで動画を一括生成する、といったワークフローが組める。多言語コンテンツを量産するマーケティングチームには、これだけで導入理由になる。
Avatarsは全有料プラン(月額5ドル〜、約750円〜)で利用可能だ。
HeyGen・Synthesiaとどう違うか
正直に言えば、アバター動画の品質そのものでは、HeyGenやSynthesiaのほうが一日の長がある。専業で数年間磨いてきたツールと、音声会社が追加した新機能では、表情の自然さやポーズのバリエーションに差があるのは当然だ。
ただし、ElevenLabsがAvatarsで狙っているのは「動画ツールとしての完成度」ではない。
音声合成 → リップシンク → 動画生成 → 多言語展開を、1つのプラットフォーム内で完結させることに価値がある。HeyGenユーザーがElevenLabsの音声を使うために別途契約し、ファイルをエクスポートして差し替えていた手間が丸ごと消える。しかもFlowsで自動化すれば、手作業すら不要になる。
「最高品質のアバター動画」が欲しいならHeyGen。「音声からアバター動画まで一気通貫で、かつ大量生産したい」ならElevenLabs。棲み分けは明確だ。
3部門体制 — 「音声の会社」からの脱皮
Avatarsの追加と並行して、ElevenLabsはプラットフォーム全体を3つの柱に再編した。
ElevenAgents — 企業向け音声AIエージェントの構築・運用基盤。電話・チャット・WhatsAppなど複数チャネルに対応し、MCP(Model Context Protocol)経由でCRM参照や予約処理といった実アクションを会話中に実行できる。コンプライアンスガードレールと分析機能を内蔵しており、コールセンター置き換えを本気で狙っている。
ElevenCreative — 音声・音楽・効果音・画像・動画を1つのワークスペースで制作するクリエイティブスタジオ。今回のAvatarsもここに入る。Flowsによるバッチ処理・チームコラボレーション・テンプレート機能を備え、制作チームの日常ツールとして定着を狙う。
ElevenAPI — 開発者向けのインフラ層。テキスト読み上げ、音声文字起こし(Scribe v2)、吹き替え、音楽生成をAPIで提供する。Python/TypeScript SDK、ストリーミングエンドポイント、SOC 2/HIPAA/GDPR対応、EU内データレジデンシーまでカバーする。
この3部門は、収益源の分散という意味でも重要だ。ElevenLabsの2026年ARR(年間経常収益)は5億ドルを超えたとされるが、その大半は従来のTTS API利用によるもの。Agents(B2B SaaS)とCreative(クリエイター向けサブスク)を独立した収益柱に育てることで、単一製品への依存を減らす狙いが見える。
旧モデル廃止 — 7月9日までに動く必要がある
3部門体制への移行に伴い、初期モデルの廃止も進む。
- eleven_monolingual_v1 と eleven_multilingual_v1 — 2026年7月9日に削除。eleven_multilingual_v2への移行が必要
- scribe_v1(音声文字起こし) — 同じく7月9日削除。scribe_v2またはscribe_v2_realtimeへの移行が必要
OpenClawなどElevenLabsのAPIを利用するオープンソースプロジェクトでは、すでにv1モデルの廃止による影響が報告されている。APIを直接利用している開発者は、7月9日までにモデルIDの更新が必要だ。
この動きが示すもの
ElevenLabsの3部門再編を「組織図の変更」と見るのはもったいない。
音声合成のElevenLabs、動画アバターのHeyGen、音楽生成のSuno。これまではそれぞれが得意分野で独立していたAIクリエイティブツールが、互いの領域に侵食し始めている。ElevenLabsはAvatarsで動画に入り、Flowsで音楽・画像・動画を統合した。Pikaは動画生成からSlack・Figma連携のクリエイティブエージェントに転身した。
この流れが加速すれば、クリエイターが契約するAIツールの数は減る方向に向かう。音声はA社、動画はB社、音楽はC社と使い分けていたのが、1社で完結する世界が近づいている。
ElevenLabsの賭けは、その「1社」のポジションを音声の信頼性で取れるか、だ。音声品質への評判がすでに確立されている以上、「ElevenLabsの音声でアバターも作れるなら、わざわざ別ツールを契約する理由がなくなる」と考えるユーザーは少なくないはずだ。
アバター動画の品質で専業ツールに追いつくには時間がかかるだろう。だが、ElevenLabsが勝負しているのは品質単体ではなく、「音声 × 動画 × 自動化」のワークフロー全体だ。その土俵では、すでに有利に立っている。
関連記事
無料で5冊までオーディオブック化 — SpotifyがElevenLabsのAI音声で出版の敷居を下げた
SpotifyにElevenLabsのAI音声でオーディオブック作成機能追加。無料5冊まで。使い方を解説。
ElevenLabsのAPI料金が最大55%下がった — 従量課金も導入、音声AIの敷居がまた一段低くなる
ElevenLabsがTTS最大55%、STT最大45%、エージェント最大20%のAPI値下げとPAYG(従量課金)を発表。新旧料金の比較と、開発者への影響を解説。
年商750億円の音声AI企業に、ハリウッドとウォール街が同時に賭けた — ElevenLabs ARR $500M突破の内幕
ElevenLabsがARR $500Mを突破。BlackRock・Nvidia・Jamie Foxxら新投資家が参加した背景と、音声AI市場が急拡大する理由を数字で読み解く。