FlowTune Media

1曲の中でオペラからヘビメタに切り替わる — ElevenLabs Music v2が変えるAI作曲の粒度

5月26日、ElevenLabsがMusic v2を発表した。同じ週にStability AIがStable Audio 3.0をリリースしており、AI音楽生成は2026年春にしてすでに「モデル戦争」の様相を呈している。

ただ、Music v2の注目点は音質の向上ではない。「曲の途中でジャンルを変えられる」という、これまでどのAI音楽ツールも実現していなかった操作性にある。

セクション単位で曲を組み立てる

従来のAI音楽生成ツールは、プロンプトを入力して1曲丸ごと出力する方式が基本だった。出力が気に入らなければ再生成するか、パラメータを微調整してやり直すしかない。Music v2はこのワークフローを根本から変えた。

イントロ、ヴァース、コーラス、ブリッジといったセクションを個別に生成し、それらを並べて1曲に仕上げる。各セクションは独立して再生成・編集が可能で、たとえば「コーラスだけもう少しテンポを上げたい」「ブリッジにアコースティック感を加えたい」といった部分的な調整ができる。

この仕組みの上で動くのが、ジャンル切り替え機能だ。1曲の中でオペラからヘビメタへ、ジャズからエレクトロニカへ——セクション境界を跨いでジャンルを変えても、音楽的な一貫性が崩れない。ElevenLabsは「同じ曲の中でオペラからヘビメタに行って戻ってきても破綻しない」と主張しているが、正直なところ「破綻しない」と「自然に聴こえる」は別の話だ。実際にいくつか試してみると、極端なジャンル切り替えはやはり唐突に聞こえる場面がある。ただ、近いジャンル間の移行(アコースティック→フォークロック、R&B→ネオソウルなど)は驚くほど滑らかで、人間の編曲に近い仕上がりになる。

高速ラップと非音楽的効果音

Music v2のもう一つの進化は、密度の高い歌詞処理能力だ。速いテンポのラップでも歌詞が潰れず、発音の明瞭さを保てるようになった。v1では早口の歌詞を入れると単語が溶け合って聞き取れなくなることがあったが、v2ではかなり改善されている。

さらに、楽曲の中に非音楽的なサウンドエフェクト——雨音、群衆の歓声、機械音など——を直接埋め込めるようになった。ポッドキャストのイントロに環境音を重ねたBGMを作ったり、ゲーム実況の効果音付きジングルを生成したり。音楽と効果音の境界線をAIが曖昧にし始めている。

多言語対応の現実

公式には「多言語対応が改善された」とされている。前回のレビューでも触れたが、v1の日本語ボーカルは発音が不自然な場面が多かった。

v2で改善されたかというと、結論としては「少し良くなった、が完璧ではない」。英語・スペイン語・韓国語あたりは安定して自然なボーカルを生成できる。日本語については、特に母音の長さやアクセントの処理が改善されており、v1のような「明らかに機械」という印象は薄まった。しかし、助詞の発音や文末のイントネーションにはまだ不自然さが残る。BGM用途(インスト)であれば問題ないが、日本語歌詞を前面に出す用途には慎重になったほうがいい。

API料金を最大50%引き下げ

Music v2のリリースに合わせて、ElevenLabsはAPIとElevenCreativeの料金を大幅に引き下げた。

  • ElevenAPI: 最大50%オフ
  • ElevenCreative セルフサーブ: 最大40%オフ
  • Music v1にも同じ割引を適用(v1を使い続けるユーザーも恩恵を受ける)

この値下げのタイミングは偶然ではないだろう。Stable Audio 3.0がオープンウェイトで無料利用可能なモデルをリリースした直後だ。オープンソースの価格破壊に対して、商用ライセンスの安全性とプラットフォームの利便性で対抗しつつ、価格面でも距離を縮めにきた格好だ。

なお、ElevenMusicアプリ(コンシューマー向け)の無料枠や月額料金に変更はない。値下げはあくまで開発者向けAPI・クリエイター向けプラットフォームに限定されている。

Sunoとの距離は縮まったか

4月の時点で筆者が書いた前回のレビューでは「楽曲の個性ではSunoに及ばない」と評価した。その結論はv2でも大きくは変わらない。Sunoのv5.5が生み出す楽曲には感情的な厚みがあり、「BGM」ではなく「作品」として成立する力がある。

一方で、Music v2はBGMとしての完成度と実用性を大幅に引き上げた。セクション編集によるコントロール性、ジャンル切り替えの柔軟性、そしてライセンス済みデータに基づく法的安全性。「聴いて感動する曲」を求めるならSuno、「仕事で安心して使える素材」を求めるならElevenLabs——この棲み分けはv2でさらに明確になった。

ただし、セクション単位での構築機能はSunoにはない。この「部品を組み合わせて曲を作る」アプローチは、DAW(デジタルオーディオワークステーション)的な制作体験をAI音楽に持ち込むもので、音楽制作の経験がある人ほど恩恵を感じるはずだ。

何が実現できるようになるか

Music v2のセクション構築とジャンル切り替えは、いくつかの具体的なユースケースを新たに切り開く。

映像制作では、シーンの雰囲気に合わせてBGMのトーンを途中で変化させることができる。これまではシーンごとに別の曲を用意してクロスフェードで繋いでいた作業が、1曲の中で自然に処理できる。

広告制作では、15秒CMと30秒CMで同じ楽曲の異なるセクション構成を使い回せる。イントロとサビだけの短縮版、フルバージョン、ブリッジを省いた中間版——同じ素材から複数のバリエーションを効率的に生成できる。

ゲーム開発ではさらに面白い可能性がある。プレイヤーの行動やゲーム状態に応じてBGMのセクションを動的に切り替える「アダプティブミュージック」は、従来は専門の作曲家に依頼する必要があった。Music v2のAPIを使えば、インディゲーム開発者でもプロトタイプレベルのアダプティブBGMを実装できるかもしれない。

気になる点

ライセンス済みデータでの学習という強みは変わらないが、具体的にどのレーベル・どのアーティストのデータを使っているのかはMerlinとKobaltとの提携以上の詳細が公開されていない。「ライセンス済み」の範囲がどこまで及ぶのかは、特にエンタープライズ利用では確認しておきたいポイントだ。

また、セクション構築は強力だが、操作のステップ数が増える分、「プロンプト一発で完成」という手軽さはやや後退する。カジュアルに曲を作りたいだけの人にとっては、v1やSunoのほうがシンプルで使いやすい場面もある。

「丸ごと生成」から「組み立てる」へ

Music v2は「AI音楽ツールの第二世代」とでも呼ぶべきアプローチだ。1曲丸ごと生成して当たり外れに一喜一憂するフェーズから、セクション単位で構築・編集するフェーズへ。プロンプトエンジニアリングからDAW的な制作体験へのシフトが始まっている。

同じ週にStable Audio 3.0がオープンウェイトで登場し、AI音楽の選択肢は一気に広がった。ElevenLabsの強みはライセンスの安全性とエコシステム(音声合成・効果音との統合)、Sunoの強みは楽曲の感情的な深さとコミュニティ、Stable Audioの強みはオープンウェイトとローカル実行。3者3様の差別化が進む2026年のAI音楽市場は、ユーザーにとっては選びやすく、開発者にとっては競争が厳しい——健全な状態だと思う。

ElevenLabs Music

関連記事