FlowTune Media

動画を渡すだけでBGMが完成する — 20秒で音楽を生成するSoniloがComfyUIに統合された

動画にBGMを付ける作業は、地味に時間がかかる。フリー素材サイトを漁り、尺に合わせてカットし、フェードアウトを調整して——。この工程が「動画を渡すだけ」で終わるとしたら?

4月14日、SoniloがComfyUIの公式パートナーノードとしてリリースされた。動画ファイルを入力すると、約20秒でその映像に合ったフルレングスのBGMを生成する。テキストプロンプトは不要。映像のタイミング、ペース、感情の起伏をAIが読み取り、音楽として出力する。

テキストプロンプトがない、という設計思想

多くのAI音楽ツールは「テキストで曲の雰囲気を指示する」アプローチを取る。Sunoなら「upbeat electronic, 120 BPM」のように書く。

Soniloは違う。入力は動画そのもの。モデルが映像の構造を解析して、音楽の展開・テンポ・ムードを決める。言い換えれば「この映像にはこういう音楽が合う」という判断をAI側がやってくれる。

実際に使う場面を想像すると、この設計の意味がわかる。YouTube向けのVlogを編集しているとき、「ここは穏やかに、ここで盛り上がって、ラストは余韻を残して終わる」という構成は映像自体が持っている。それを言語化してプロンプトに書くより、映像をそのまま渡すほうが早い。

ComfyUIとの統合が意味すること

Soniloが単体のWebアプリとしてリリースされていたら、正直そこまで面白くなかった。ComfyUIのノードとして出てきたことに意味がある。

ComfyUIは画像・動画生成のワークフローをノードベースで組むツールで、Stable Diffusion系のユーザーを中心に普及している。ここにSoniloが入ることで「テキスト→画像→動画→BGM」の全工程をひとつのワークフロー内で完結させられる。

たとえばこんな流れが一本のパイプラインになる。

  1. プロンプトからFlux/SD3で画像を生成
  2. その画像をLTX-2やWan 2.7で動画化
  3. 生成された動画をSoniloに渡してBGMを生成
  4. 映像+音楽の完成動画を出力

手動で4つのツールを行き来する必要がない。AIによるコンテンツ制作が「パーツの組み合わせ」から「一気通貫のパイプライン」に変わる瞬間だ。

料金と制約

従量課金で1分あたり$0.2(約30円)。5分の動画にBGMを付けるなら約150円。月額サブスクはなく、使った分だけ払う。

制約もある。

  • 最大動画長は6分
  • 出力は音楽のみ(効果音やナレーションには対応しない)
  • 楽曲のスタイル指定はできない(映像から自動判断)
  • 現時点ではComfyUIノードとAPIのみ。スタンドアロンのWebアプリはない

商用利用はOK。生成された音楽はロイヤリティフリーで、YouTube・広告・ポッドキャストなどに使える。

気になる点

映像から自動で音楽を生成するのは魅力的だが、「スタイルを指定できない」のは場面によってはストレスになりそうだ。たとえば企業VPで「落ち着いたピアノ曲が欲しい」と決まっている場合、映像の雰囲気次第では全然違うジャンルが出てくる可能性がある。

また、6分の制約は短編動画やSNS用には十分だが、長尺のVlogや解説動画には足りない。分割して生成すればつながりが不自然になるだろう。

とはいえ、$0.2/分という価格で「とりあえず映像に合ったBGMを瞬時に得られる」のは、フリー素材を探す時間を考えれば悪くない。最終成果物に使わなくても、仮BGMとしてラフ編集を進めるには十分実用的だ。

Google Meetにも入れる

余談だが、SoniloはPikaのAI Selves機能との連携もサポートしており、Google Meetに「AIの顔と声」で参加するユースケースにもBGMを付けられる。正直ニッチすぎる気もするが、AIアバターによるプレゼンの演出として考えると、映像の雰囲気に合わせてリアルタイムに音楽が流れる体験は新しい。

動画制作のどこに位置づけるか

Soniloは「最終仕上げのBGM制作ツール」というより、「ワークフロー内の自動化パーツ」として見たほうがしっくり来る。ComfyUIユーザーがAI動画の量産パイプラインを組むとき、音の問題だけが手動で残っていた。その穴を埋めるツールだ。

プロの映像制作者が最終納品物のBGMをこれだけで済ませることは考えにくい。しかしプロトタイプや内部確認用、SNS向けショート動画なら十分な品質になりうる。

関連記事