FlowTune Media

スマホで動く音楽生成AI、しかもオープンウェイト — Stable Audio 3.0が選ばれる理由

AI音楽生成ツールを選ぶときの悩みは、だいたい3つに集約される。生成した曲を商用利用して大丈夫か。クラウドに音楽データを送りたくない。そしてAPI利用料が積み重なって予算を圧迫する。

5月20日にStability AIがリリースしたStable Audio 3.0は、この3つすべてに対する回答を持っている。ライセンス済みデータで学習し、オープンウェイトで公開し、最小モデルはスマートフォンのCPUで動く。

4つのモデル、3つがオープンウェイト

Stable Audio 3.0は単一のモデルではなく、用途別に設計された4つのモデルで構成されるファミリーだ。

モデル パラメータ数 最大生成時間 用途 重み
Small SFX 459M 2分 効果音・短いジングル オープン
Small 459M 2分 短い楽曲・モバイル オープン
Medium 1.4B 6分20秒 フル楽曲 オープン
Large 2.7B 6分20秒 商用品質の楽曲 API/自社ホスト

Small SFX、Small、Mediumの3モデルはHugging Faceからダウンロードできる。Largeのみ、Stability AIのAPIまたはパートナーのfal.ai経由、あるいはエンタープライズライセンスでの自社ホスティングで利用する。

ここで重要なのは、Mediumモデルが6分20秒のフル楽曲を生成できる点だ。オープンウェイトで6分超の楽曲生成が可能なモデルは、筆者の知る限りこれが初めてだ。

スマホで、CPUで動く

Smallモデル(459Mパラメータ)はGPUを必要としない。CPUだけで音声を生成できる。Stability AIの発表によると、M4 MacBook Proでは数秒、Mediumモデルでも H200 GPU上で2秒以内に音声を生成する。

これが意味するのは、クラウドAPIへの依存を完全になくせるということだ。ゲームアプリに効果音生成を組み込む、オフライン環境でBGMを作る、社内のセキュリティポリシーでクラウドへのデータ送信が禁止されている環境でも使える。SunoやElevenLabsのようなクラウド型サービスでは実現できない利用形態だ。

学習データの透明性

AI音楽生成で避けて通れないのが著作権の問題だ。Sunoはレコードレーベルとの訴訟を抱えており、多くのAI音楽ツールの学習データは不透明なまま運用されている。

Stable Audio 3.0はここに明確な回答を出した。学習データはAudioSparxのライセンス楽曲(806,284ファイル)とFreesoundのCreative Commonsライセンス音声で構成されている。どこからデータを取得し、どういうライセンスで使っているのかが研究論文で公開されている。

この透明性はエンタープライズ利用で特に効いてくる。「学習データのライセンスは?」という法務からの質問に、論文のリンクを1本送れば済む。

ただし注意点がある。年間売上100万ドル(約1.5億円)を超える企業がオープンウェイトモデルを商用利用する場合、エンタープライズライセンスが必要になる。個人や中小規模のプロジェクトであれば自由に使えるが、大企業は別途契約が必要だ。

LoRA対応とオーディオインペインティング

開発者向けに注目したい機能が2つある。

1つ目はLoRA(Low-Rank Adaptation)によるファインチューニング対応。自社の音楽ライブラリやブランドサウンドでモデルを追加学習させ、特定のスタイルやトーンに特化させることができる。たとえばゲーム会社が自社タイトルのサウンドトラック群でLoRAを作り、続編のBGM生成に使うといったワークフローが考えられる。

2つ目はオーディオインペインティング。生成済みの楽曲の一部を選択して再生成したり、楽曲の末尾を延長したりできる。「2分の曲を生成したが、サビの部分だけ雰囲気を変えたい」「曲の終わりをもう少し引き延ばしたい」といった編集が、再生成なしに可能だ。

ElevenLabsやSunoとどう違うのか

同じ週にElevenLabsがMusic v2をリリースしたこともあり、AI音楽ツールの選択肢は一気に増えた。それぞれのポジションを整理しておく。

Suno — 楽曲の品質と表現力でトップ。「作品」としての音楽を生成する力がある。クラウド専用で、学習データのライセンスに関する訴訟リスクあり。

ElevenLabs Music v2 — セクション単位の編集、ジャンル切り替え、音声合成エコシステムとの統合が強み。ライセンス済みデータ。クラウドAPI中心。

Stable Audio 3.0 — オープンウェイト、ローカル実行、LoRAカスタマイズが差別化ポイント。品質面ではSunoやElevenLabsのLargeに一歩譲る場面があるが、自由度とコスト構造で勝る。

端的に言えば、Sunoは「最高品質の曲が欲しい人」、ElevenLabsは「商用素材を安全に調達したい人」、Stable Audio 3.0は「自分の環境でコントロールしたい人」に向いている。

率直な印象

MediumモデルでいくつかBGMを生成してみた感想として、楽曲構造の一貫性は予想以上に良い。6分の曲でもイントロ・展開・サビ・アウトロの流れが破綻せず、聴いていて退屈しない。ボーカルなしのインストゥルメンタルでは、ElevenLabsのMusicやSunoと比べても遜色ないレベルだ。

一方、ボーカル付きの楽曲では差が出る。歌詞の自然な発音や感情表現はSunoに及ばない。Stable Audio 3.0の真価は、楽器演奏と音響デザインにある。映像BGM、ゲームサウンド、ポッドキャストのジングル——ボーカルを必要としないユースケースでこそ本領を発揮する。

もう一つ、459Mパラメータのモデルが手元のマシンで動くという体験は、数字以上にインパクトがある。クラウドのレイテンシを気にせず、使った分だけAPI料金がかかる心配もない。「AI音楽生成を日常的に使う」ハードルが、一段下がった感覚だ。

誰のためのツールか

Stable Audio 3.0は万人向けのツールではない。Sunoのようにテキストボックスにプロンプトを打ち込めば曲が出てくるような手軽さはなく、モデルのダウンロード、環境構築、推論パイプラインの設定が必要になる。

だが、その手間をかける価値がある人にとっては、現時点で最も自由度の高い選択肢だ。自社サーバーで動かしたい企業。学習データのライセンスを厳密に管理したい法務部門。LoRAで独自のサウンドを作りたいクリエイター。API料金を気にせず大量生成したい開発者。

オープンウェイトの音楽AIがここまで実用的なレベルに達したのは、Stable Audio 3.0が初めてだと思う。「AIが曲を作れる」時代から、「自分のAIに曲を作らせる」時代への入口が、静かに開いた。

Stable Audio 3.0(Stability AI)

関連記事