daVinci-MagiHuman — 2秒でリップシンク動画を生成。有料ツールに勝率80%のOSSが来た
HeyGenのCreatorプランは月額24ドル。Synthesiaは月額22ドルから。D-IDも似たような価格帯だ。
「AIで自分の顔が喋る動画を作りたい」——その需要は確実にあるのに、毎月のサブスクリプションが地味に痛い。しかもこうしたサービスは、APIに依存する以上、いつ値上げされても文句は言えない。
2026年3月、そのゲームのルールを変えうるモデルが登場した。daVinci-MagiHuman。15Bパラメータ、Apache 2.0ライセンス、商用利用完全OK。人間評価ではOvi 1.1に80%の勝率。しかもローカルで動く。
「全部入りのTransformer」という設計
daVinci-MagiHumanを開発したのは、GAIR Lab(上海交通大学系列)とSand.aiの共同チームだ。
技術的に特筆すべきは、そのアーキテクチャの潔さにある。テキスト、映像、音声のトークンをひとつのシーケンスに連結し、単一のTransformerで処理する。モダリティごとに別モデルを用意してパイプラインで繋ぐ——という従来のデジタルヒューマン生成の常識を完全に無視した設計だ。
具体的には「サンドウィッチレイアウト」と呼ばれる構造を採用している。最初と最後の4層にモダリティ固有のプロジェクションを配置し、中間の32層はすべてのモダリティで重みを共有する。複雑さを削ぎ落とした結果、H100 GPU 1枚で5秒の動画をわずか2秒で生成できるスピードを実現した。
ベンチマークと実力
数字を並べる。
生成速度(H100 1枚):
- 256p: 5秒動画 → 2秒で生成
- 540p: 5秒動画 → 8秒で生成
- 1080p: 5秒動画 → 38.4秒で生成
人間評価(勝率):
- vs Ovi 1.1: 80%
- vs LTX 2.3: 60.9%
音声精度(WER = Word Error Rate、低いほど良い):
- daVinci-MagiHuman: 14.60%
- LTX 2.3: 19.23%
- Ovi 1.1: 40.45%
リップシンク——つまり口の動きと音声の同期——の精度でも、生成された映像の自然さでも、既存のオープンモデルを明確に上回っている。
注目すべきは言語対応の幅だ。中国語(普通話・広東語)、英語、日本語、韓国語、ドイツ語、フランス語の7言語をサポートする。競合のOSSモデルが英語+中国語止まりのケースが多い中で、日本語ネイティブ対応は大きなアドバンテージだ。
実際に試す方法
ローカルに H100を持っている人は少数派だろう。試すルートは主に3つ。
1. HuggingFace Spaces SII-GAIR/daVinci-MagiHumanで、ブラウザから直接試せる。画像とテキストを入力するだけで動画が生成される。無料だが、混雑時はキューで待つことになる。
2. WaveSpeedAI WaveSpeedAIがAPIとしてホスティングしている。Text-to-Video、Image-to-Videoの両方に対応。少量の生成なら無料枠があり、本格的に使うなら従量課金で利用可能だ。
3. ローカルセットアップ GitHubからコードとモデルウェイトをダウンロードし、自前のGPUで動かす。NVIDIA A100やH100クラスが推奨。VRAMの要件が高いため、コンシューマーGPU(RTX 4090等)では厳しい。
筆者はHuggingFace SpacesとWaveSpeedAIの両方で試したが、日本語のテキストを入力してから30秒ほどで自然なリップシンク動画が返ってきた。口の動きと音声のズレはほぼ感じない。ただし、256p解像度では粗さが目立つので、実用するなら540p以上を推奨する。
正直に書く限界
OSSとしては驚異的だが、有料サービスと比べたときの弱点は明確にある。
5秒の壁。 1回の生成で作れるのは最大5秒。プレゼン動画や解説コンテンツのような長尺には、複数クリップをつなぎ合わせるワークフローが必要になる。HeyGenやSynthesiaがシームレスに数分の動画を生成できるのとは対照的だ。
アバターの多様性がない。 HeyGenは1,000以上のストックアバターを提供しているが、daVinci-MagiHumanは入力として自分の顔写真を使うのが前提。「とりあえず誰かの顔で」というカジュアルな使い方には向いていない。
GPU要件が高い。 ローカル実行にはデータセンター級のGPUが必要。個人がカジュアルに手元で回せるモデルではない。実質的にはクラウドAPIか、HuggingFace Spacesに頼ることになる。
HeyGenの代替にはまだなれない。でも——
結論から言えば、daVinci-MagiHumanは今日の時点でHeyGenの完全な代替にはならない。5秒制限、アバターの多様性、UIの使いやすさ、どれをとっても商用サービスのほうが洗練されている。
だが、この話のポイントはそこではない。
Apache 2.0のオープンソースモデルが、有料サービスの品質に肉薄する——その事実自体がインパクトだ。デジタルヒューマン動画は長らく「閉じたAPI」の世界だったが、今後はMagiHumanのようなOSSを基盤にした自社カスタマイズが現実的な選択肢になる。
たとえば、自社の製品説明動画を大量に生成したいeコマース事業者。HeyGenに月額を払い続けるか、WaveSpeedAIのAPI経由でMagiHumanを従量課金で使うか。動画の長さが5秒以内で済むSNS広告のようなユースケースなら、後者のコストメリットは大きい。
あるいは、MagiHumanをベースにファインチューニングして、自社のブランドキャラクターに特化したモデルを作るという使い方。これは閉じたサービスでは絶対にできないことだ。
OSSのデジタルヒューマンが「実用に堪える」品質に到達したのは、2026年のAI動画領域で最も重要な出来事のひとつだと筆者は考えている。5秒の壁がいつ破られるか——そこが次の注目ポイントだ。
関連記事
LTX Desktop — Runwayの月額から解放される日が来た。完全ローカル4K AI動画の実力
LTX DesktopはLightricksが開発した無料OSSのローカルAI動画生成アプリ。4K 50fps、音声付き、RTX 4090で動作。Runway・Klingとの比較と実用性を検証する。
Sora消滅の4月、Pika 2.5が「速さ」で勝負に出た — Scene Extensionの実力と限界
Pika 2.5はScene ExtensionとLayered Motion Controlで短尺AI動画の新基準を作った。Sora終了を控えた2026年4月、Kling・Runway勢との違いを整理する。
HeyGen Avatar V — 15秒の自撮りから「もう一人の自分」を作る。identity driftを克服した第5世代モデルの技術と使いどころ
HeyGenのAvatar Vは15秒の録画からフォトリアルなデジタルツインを生成するAIアバターモデル。175言語リップシンク、identity drift解消の仕組み、料金を解説。