FlowTune Media

daVinci-MagiHuman — 2秒でリップシンク動画を生成。有料ツールに勝率80%のOSSが来た

HeyGenのCreatorプランは月額24ドル。Synthesiaは月額22ドルから。D-IDも似たような価格帯だ。

「AIで自分の顔が喋る動画を作りたい」——その需要は確実にあるのに、毎月のサブスクリプションが地味に痛い。しかもこうしたサービスは、APIに依存する以上、いつ値上げされても文句は言えない。

2026年3月、そのゲームのルールを変えうるモデルが登場した。daVinci-MagiHuman。15Bパラメータ、Apache 2.0ライセンス、商用利用完全OK。人間評価ではOvi 1.1に80%の勝率。しかもローカルで動く。

「全部入りのTransformer」という設計

daVinci-MagiHumanを開発したのは、GAIR Lab(上海交通大学系列)とSand.aiの共同チームだ。

技術的に特筆すべきは、そのアーキテクチャの潔さにある。テキスト、映像、音声のトークンをひとつのシーケンスに連結し、単一のTransformerで処理する。モダリティごとに別モデルを用意してパイプラインで繋ぐ——という従来のデジタルヒューマン生成の常識を完全に無視した設計だ。

具体的には「サンドウィッチレイアウト」と呼ばれる構造を採用している。最初と最後の4層にモダリティ固有のプロジェクションを配置し、中間の32層はすべてのモダリティで重みを共有する。複雑さを削ぎ落とした結果、H100 GPU 1枚で5秒の動画をわずか2秒で生成できるスピードを実現した。

ベンチマークと実力

数字を並べる。

生成速度(H100 1枚):

  • 256p: 5秒動画 → 2秒で生成
  • 540p: 5秒動画 → 8秒で生成
  • 1080p: 5秒動画 → 38.4秒で生成

人間評価(勝率):

  • vs Ovi 1.1: 80%
  • vs LTX 2.3: 60.9%

音声精度(WER = Word Error Rate、低いほど良い):

  • daVinci-MagiHuman: 14.60%
  • LTX 2.3: 19.23%
  • Ovi 1.1: 40.45%

リップシンク——つまり口の動きと音声の同期——の精度でも、生成された映像の自然さでも、既存のオープンモデルを明確に上回っている。

注目すべきは言語対応の幅だ。中国語(普通話・広東語)、英語、日本語、韓国語、ドイツ語、フランス語の7言語をサポートする。競合のOSSモデルが英語+中国語止まりのケースが多い中で、日本語ネイティブ対応は大きなアドバンテージだ。

実際に試す方法

ローカルに H100を持っている人は少数派だろう。試すルートは主に3つ。

1. HuggingFace Spaces SII-GAIR/daVinci-MagiHumanで、ブラウザから直接試せる。画像とテキストを入力するだけで動画が生成される。無料だが、混雑時はキューで待つことになる。

2. WaveSpeedAI WaveSpeedAIがAPIとしてホスティングしている。Text-to-Video、Image-to-Videoの両方に対応。少量の生成なら無料枠があり、本格的に使うなら従量課金で利用可能だ。

3. ローカルセットアップ GitHubからコードとモデルウェイトをダウンロードし、自前のGPUで動かす。NVIDIA A100やH100クラスが推奨。VRAMの要件が高いため、コンシューマーGPU(RTX 4090等)では厳しい。

筆者はHuggingFace SpacesとWaveSpeedAIの両方で試したが、日本語のテキストを入力してから30秒ほどで自然なリップシンク動画が返ってきた。口の動きと音声のズレはほぼ感じない。ただし、256p解像度では粗さが目立つので、実用するなら540p以上を推奨する。

正直に書く限界

OSSとしては驚異的だが、有料サービスと比べたときの弱点は明確にある。

5秒の壁。 1回の生成で作れるのは最大5秒。プレゼン動画や解説コンテンツのような長尺には、複数クリップをつなぎ合わせるワークフローが必要になる。HeyGenやSynthesiaがシームレスに数分の動画を生成できるのとは対照的だ。

アバターの多様性がない。 HeyGenは1,000以上のストックアバターを提供しているが、daVinci-MagiHumanは入力として自分の顔写真を使うのが前提。「とりあえず誰かの顔で」というカジュアルな使い方には向いていない。

GPU要件が高い。 ローカル実行にはデータセンター級のGPUが必要。個人がカジュアルに手元で回せるモデルではない。実質的にはクラウドAPIか、HuggingFace Spacesに頼ることになる。

HeyGenの代替にはまだなれない。でも——

結論から言えば、daVinci-MagiHumanは今日の時点でHeyGenの完全な代替にはならない。5秒制限、アバターの多様性、UIの使いやすさ、どれをとっても商用サービスのほうが洗練されている。

だが、この話のポイントはそこではない。

Apache 2.0のオープンソースモデルが、有料サービスの品質に肉薄する——その事実自体がインパクトだ。デジタルヒューマン動画は長らく「閉じたAPI」の世界だったが、今後はMagiHumanのようなOSSを基盤にした自社カスタマイズが現実的な選択肢になる。

たとえば、自社の製品説明動画を大量に生成したいeコマース事業者。HeyGenに月額を払い続けるか、WaveSpeedAIのAPI経由でMagiHumanを従量課金で使うか。動画の長さが5秒以内で済むSNS広告のようなユースケースなら、後者のコストメリットは大きい。

あるいは、MagiHumanをベースにファインチューニングして、自社のブランドキャラクターに特化したモデルを作るという使い方。これは閉じたサービスでは絶対にできないことだ。

OSSのデジタルヒューマンが「実用に堪える」品質に到達したのは、2026年のAI動画領域で最も重要な出来事のひとつだと筆者は考えている。5秒の壁がいつ破られるか——そこが次の注目ポイントだ。

関連記事