Netflix VOID — 動画から物体を消すと「影も波紋も消える」無料AIが、有料ツールを圧倒している
動画から人を消す。そこまでは既存ツールでもできた。
だが、その人が持っていたギターが自然に床に落ちる——そこまで再現するAIは、Netflixが最初に作った。
2026年4月3日、NetflixがVOID(Video Object and Interaction Deletion)をひっそりとHugging Faceに公開した。Apache 2.0ライセンス。商用利用可。無料。
これがNetflix初のオープンソースAIモデルだという事実も驚きだが、もっと驚くのはその性能だ。有料の定番ツールRunwayとの人間による評価テストで、VOID支持率64.8%に対しRunway 18.4%。3倍以上の差をつけた。
「物体を消す」の次元が違う
従来の動画インペインティングツールは、対象物を消してその背景を補完する。影やリフレクションが残っていても「まあそんなもの」だった。
VOIDのアプローチは根本的に異なる。物体そのものだけでなく、その物体が周囲に与えていた物理的な影響まで一緒に消す。
具体的に何が起きるかというと——
人物を消すと、その人が落としていた影も消える。水辺のシーンで物体を消すと、その物体が作っていた波紋も消える。人がギターを持っていて、その人を消すと、ギターが支えを失って落下するアニメーションが自然に生成される。
これは「穴を埋める」のではなく、「その物体が最初から存在しなかったら、シーンはどうなっていたか」を物理的に推論している。影、反射、衝突、落下——すべてを再計算する。
CogVideoXベースの2パス構造
技術的には、VOIDはCogVideoXの上に構築されたファインチューニングモデルだ。
特徴的なのは2パス構造。Pass 1でマスク対象の削除と基本的な背景補完を行い、Pass 2で時間軸方向の一貫性を高める。Pass 1だけでも動作するが、2パスを連結すると時間的なちらつきが大幅に減る。
入力は動画フレームとマスク(消したい領域を指定するバイナリマスク)。出力は物体が消えた状態の動画。シンプルなパイプラインだが、物理的相互作用を扱える点が他のインペインティングモデルとの決定的な差だ。
使うにはA100級のGPUが必要
ここが正直な壁だ。
VOIDの推論にはVRAM 40GB以上のGPUが必要になる。NVIDIA A100やH100クラス。個人のゲーミングPCでは動かない。RTX 4090の24GBでも足りない。
ただし、ハードウェアがない人向けにHugging Face Spaces上のデモが公開されている。ブラウザ上で試せるので、まず触ってみるだけならGPU不要だ。
クラウドGPU(RunPod、Lambda、Google Colab Pro+など)を使えば、A100インスタンスを時間課金で利用できる。1時間あたり数ドルで、短い動画なら実用的なコストに収まる。
Runwayとの比較は公平か
VOIDがRunwayを「圧倒」したテスト結果は印象的だが、比較の文脈は考える必要がある。
Runwayは動画編集プラットフォームとして、インペインティング以外にもテキストto動画、スタイル変換、モーションブラシなど多数の機能を持つ。VOIDは「動画から物体を消す」という一点に特化している。汎用ツールと専門ツールの比較であり、RunwayがVOIDに負けたからといってRunwayが劣るわけではない。
とはいえ、「物体削除」という一つのタスクでオープンソースの無料モデルが有料サービスを上回ったのは事実だ。VFX業界やポストプロダクションの現場では、特定タスクに最適化されたOSSモデルをパイプラインに組み込む流れが加速するだろう。
誰のためのツールか
VOIDの想定ユーザーは、映像制作のプロフェッショナルだ。
VFXのポストプロダクションで不要な物体を消す作業は、従来は手作業でフレーム単位のロトスコーピングが必要だった。1秒あたり24〜30フレームを人が一枚ずつ修正する。この工程をAIが自動化し、しかも物理的な整合性まで保つ。制作コストへのインパクトは大きい。
YouTuberや個人クリエイターにとっても価値はあるが、40GB VRAM要件がハードルになる。クラウドGPUのコストを考えると、短い動画の一部を修正する用途なら実用的だが、長尺動画の全編処理は現時点ではコスト的に厳しい。
Netflixが「作る側」に回った意味
最後に、もう少し大きな話をする。
Netflixはこれまでコンテンツの「消費プラットフォーム」だった。AIモデルを公開するのは今回が初めてで、それがApache 2.0という完全にオープンなライセンスであることは注目に値する。
映像制作のノウハウを持つNetflixが、制作ツールをオープンソースで出す。これはRunwayやAdobeといった既存の映像AIツールベンダーにとって、競合が一段階上のレイヤーから参入してきたことを意味する。
VOIDは「物体削除」という単一機能のモデルだが、Netflixがこの方向で研究を進めれば、リライティング、シーン拡張、キャラクター差し替えといった、より高度なポストプロダクションAIが出てくる可能性は十分にある。映像AIの勢力図は、まだ固まっていない。
関連記事
HeyGen Avatar V — 15秒の自撮りから「もう一人の自分」を作る。identity driftを克服した第5世代モデルの技術と使いどころ
HeyGenのAvatar Vは15秒の録画からフォトリアルなデジタルツインを生成するAIアバターモデル。175言語リップシンク、identity drift解消の仕組み、料金を解説。
Cohere Transcribeが音声認識の王座を奪った — Whisperを超えたオープンソースASRモデルの実力と限界
Cohere Transcribeの精度・日本語性能・制限を解説。WER 5.42%でWhisperを超えたオープンソース音声認識モデルの実力と、乗り換え判断のポイント
Google AI Edge Gallery — スマホでGemma 4をオフライン実行する時代が来た
Google AI Edge GalleryでGemma 4をスマホ完全オフライン実行した実機レビュー。AIチャット・画像質問・音声書き起こし・Agent Skillsの4機能、動作環境、プライバシーの強みと課題を解説