ElevenLabsが動画生成に踏み込んだ — Avatars機能と3部門再編が意味すること

HeyGenやSynthesiaのユーザーが、ナレーション品質に不満を感じたときの定番の解決策は「音声だけElevenLabsを使う」だった。AI動画ツールの裏側で、ElevenLabsの音声合成が静かに標準インフラになっていた事実がある。

そのElevenLabsが、裏方をやめて正面から動画市場に入ってきた。

2026年6月、ElevenLabsはElevenCreativeに「Avatars」機能を追加し、トーキングヘッド動画の生成に対応した。同時に、プラットフォーム全体をElevenAgents・ElevenCreative・ElevenAPIの3部門に再編。音声合成の会社から「音と映像のインフラ」への転換を鮮明にしている。

Avatarsで何ができるのか

やることはシンプルだ。アバターを選び、スクリプトを書き、声を選んで生成する。音声合成とリップシンクが同一ワークフロー内で完結するため、動画生成ツールと音声ツールの間でファイルをやり取りする必要がない。

ElevenCreativeには年齢・性別・用途で絞り込めるアバターライブラリが用意されている。カスタムアバターを写真やプロンプトから作成し、プロジェクト間で使い回すことも可能だ。

地味に効くのがFlowsとの統合だろう。Flowsはノードベースのキャンバスで50以上のAIモデルを連結できる機能で、バッチ処理に対応している。たとえば1つのスクリプトを10言語に翻訳し、それぞれの言語に合ったアバターで動画を一括生成する、といったワークフローが組める。多言語コンテンツを量産するマーケティングチームには、これだけで導入理由になる。

Avatarsは全有料プラン（月額5ドル〜、約750円〜）で利用可能だ。

HeyGen・Synthesiaとどう違うか

正直に言えば、アバター動画の品質そのものでは、HeyGenやSynthesiaのほうが一日の長がある。専業で数年間磨いてきたツールと、音声会社が追加した新機能では、表情の自然さやポーズのバリエーションに差があるのは当然だ。

ただし、ElevenLabsがAvatarsで狙っているのは「動画ツールとしての完成度」ではない。

音声合成 → リップシンク → 動画生成 → 多言語展開を、1つのプラットフォーム内で完結させることに価値がある。HeyGenユーザーがElevenLabsの音声を使うために別途契約し、ファイルをエクスポートして差し替えていた手間が丸ごと消える。しかもFlowsで自動化すれば、手作業すら不要になる。

「最高品質のアバター動画」が欲しいならHeyGen。「音声からアバター動画まで一気通貫で、かつ大量生産したい」ならElevenLabs。棲み分けは明確だ。

3部門体制 — 「音声の会社」からの脱皮

Avatarsの追加と並行して、ElevenLabsはプラットフォーム全体を3つの柱に再編した。

ElevenAgents — 企業向け音声AIエージェントの構築・運用基盤。電話・チャット・WhatsAppなど複数チャネルに対応し、MCP（Model Context Protocol）経由でCRM参照や予約処理といった実アクションを会話中に実行できる。コンプライアンスガードレールと分析機能を内蔵しており、コールセンター置き換えを本気で狙っている。

ElevenCreative — 音声・音楽・効果音・画像・動画を1つのワークスペースで制作するクリエイティブスタジオ。今回のAvatarsもここに入る。Flowsによるバッチ処理・チームコラボレーション・テンプレート機能を備え、制作チームの日常ツールとして定着を狙う。

ElevenAPI — 開発者向けのインフラ層。テキスト読み上げ、音声文字起こし（Scribe v2）、吹き替え、音楽生成をAPIで提供する。Python/TypeScript SDK、ストリーミングエンドポイント、SOC 2/HIPAA/GDPR対応、EU内データレジデンシーまでカバーする。

この3部門は、収益源の分散という意味でも重要だ。ElevenLabsの2026年ARR（年間経常収益）は5億ドルを超えたとされるが、その大半は従来のTTS API利用によるもの。Agents（B2B SaaS）とCreative（クリエイター向けサブスク）を独立した収益柱に育てることで、単一製品への依存を減らす狙いが見える。

旧モデル廃止 — 7月9日までに動く必要がある

3部門体制への移行に伴い、初期モデルの廃止も進む。

eleven_monolingual_v1 と eleven_multilingual_v1 — 2026年7月9日に削除。eleven_multilingual_v2への移行が必要
scribe_v1（音声文字起こし） — 同じく7月9日削除。scribe_v2またはscribe_v2_realtimeへの移行が必要

OpenClawなどElevenLabsのAPIを利用するオープンソースプロジェクトでは、すでにv1モデルの廃止による影響が報告されている。APIを直接利用している開発者は、7月9日までにモデルIDの更新が必要だ。

この動きが示すもの

ElevenLabsの3部門再編を「組織図の変更」と見るのはもったいない。

音声合成のElevenLabs、動画アバターのHeyGen、音楽生成のSuno。これまではそれぞれが得意分野で独立していたAIクリエイティブツールが、互いの領域に侵食し始めている。ElevenLabsはAvatarsで動画に入り、Flowsで音楽・画像・動画を統合した。Pikaは動画生成からSlack・Figma連携のクリエイティブエージェントに転身した。

この流れが加速すれば、クリエイターが契約するAIツールの数は減る方向に向かう。音声はA社、動画はB社、音楽はC社と使い分けていたのが、1社で完結する世界が近づいている。

ElevenLabsの賭けは、その「1社」のポジションを音声の信頼性で取れるか、だ。音声品質への評判がすでに確立されている以上、「ElevenLabsの音声でアバターも作れるなら、わざわざ別ツールを契約する理由がなくなる」と考えるユーザーは少なくないはずだ。

アバター動画の品質で専業ツールに追いつくには時間がかかるだろう。だが、ElevenLabsが勝負しているのは品質単体ではなく、「音声 × 動画 × 自動化」のワークフロー全体だ。その土俵では、すでに有利に立っている。

ElevenLabsが動画生成に踏み込んだ — Avatars機能と3部門再編が意味すること

Avatarsで何ができるのか

HeyGen・Synthesiaとどう違うか

3部門体制 — 「音声の会社」からの脱皮

旧モデル廃止 — 7月9日までに動く必要がある

この動きが示すもの

関連記事

声のAIだったElevenLabsが、動画まで作れるエディターになっていた

マイケル・ケインの声で13時間 — AI生成のオーディオブックがElevenReaderで無料公開

無料で5冊までオーディオブック化 — SpotifyがElevenLabsのAI音声で出版の敷居を下げた