Gemini Omniは「動画を会話で直すAI」だった — 生成の精度より編集体験で勝負する理由

AI動画生成の世界には、すでにSeedance 2.0やKling 3.0という強力なプレイヤーがいる。映像の美しさ、物理シミュレーションの正確さ、どちらも高いレベルに達している。

そこにGoogleが持ち込んだのは「もっときれいな映像」ではなかった。Gemini Omniの本質は、動画を会話で編集できるという体験にある。

「直す」ができる動画AIは、これが初めて

2026年5月19日、Google I/O 2026で発表されたGemini Omniは、テキスト・画像・音声・動画を入力に受け取り、動画を生成するマルチモーダルモデルだ。最初のモデルとしてGemini Omni Flashがリリースされた。

ここまでなら既存ツールと変わらない。Gemini Omniが異質なのは「会話型編集」ができる点だ。

生成した動画に対して「背景を夕焼けに変えて」「カメラアングルを上から」「人物の服を青に」と自然言語で指示を重ねていける。しかもキャラクターの一貫性、シーンの連続性、物理法則が維持されたまま。従来の動画生成AIでは、気に入らない部分があれば最初からプロンプトを書き直して再生成するしかなかった。Gemini Omniは「直す」ことができる。

これはGeminiの推論エンジンとDeepMindのGenie（ワールドシミュレーション）を融合した結果だとGoogleは説明している。動画を「作る」だけでなく「理解している」からこそ、部分的な修正が可能になる。

正直、この差は大きい。プロンプトを何度も書き直して「ガチャ」を引く体験と、対話しながら意図に近づけていく体験は、まるで別物だ。

使える場所と料金

Gemini Omniは以下の3つの経路で利用できる。

YouTube Shorts / YouTube Create App（無料） 最も手軽な入口。お気に入りのShortsを選んで「自分を入れて」「背景を変えて」とプロンプトを入力すれば、新しいバージョンが生成される。YouTube Shorts Remixとして無料で提供されている。

Geminiアプリ / Google Flow 有料プランの加入者向け。Google AI Plus（月額$7.99 / 約1,200円）から利用可能だ。Google Flowは動画編集に特化した新しいインターフェースで、Gemini Omniの会話型編集をフル活用できる。

プラン	月額	Gemini Omni利用
Google AI Plus	$7.99（約1,200円）	利用可
Google AI Pro	$19.99（約3,000円）	利用可
Google AI Ultra	$99.99（約15,000円）	利用可

なおAPI提供は「今後数週間以内」とされており、まだ価格は公開されていない。開発者向けの組み込みは少し先の話になる。

10秒の壁と、画質の現実

率直に言って、現時点のGemini Omni Flashにはいくつかの制約がある。

動画の長さは最大10秒。 ソーシャルメディア向けのショートクリップを想定した設計であり、長尺の映像制作には使えない。Seedance 2.0が最大30秒、Kling 3.0が最大120秒を生成できることを考えると、大きな制約だ。

解像度は最大1080p。 Kling 3.0のOmniバリアントが4K HDRに対応しているのに対し、Gemini Omniは1080pが上限。実用上は十分だが、プロの映像制作には物足りない。

映像のクオリティは「上の中」。 独立したレビューでは、Gemini Omni Flashの映像品質はSeedance 2.0やKling 3.0の一段下と評価されている。テクスチャの歪み、衣服の色のわずかな変化、フレーム間のちらつきが指摘されている。プロンプトへの忠実度は高いが、生の映像美では中国勢に及ばない。

こう書くとネガティブに聞こえるかもしれないが、Googleの勝負どころはそこではない。

Seedance 2.0やKling 3.0にないもの

Seedance 2.0はArtificial Analysis Video Arenaでテキスト/画像の両方で首位を獲っている映像生成の王者だ。視覚的なリズム感と音楽連動の動画生成が強い。Kling 3.0は物理シミュレーションの精度でトップクラス。衝突、重力、流体力学の再現はGemini Omniの上をいく。

だが、どちらも「一度生成した動画を会話で修正する」機能は持っていない。気に入らなければ、プロンプトを変えて再生成するしかない。

Gemini Omniの会話型編集は、映像制作のワークフローを根本から変える可能性がある。たとえば短い広告動画を作るとき、「人物の服をブランドカラーに合わせて」「ロゴを左上に入れて」「テンポを少し速めて」と段階的に指示を重ねていける。これは動画版のPhotoshop的体験と言ってもいい。

もうひとつ見逃せないのがYouTubeとの統合だ。世界最大の動画プラットフォームの中に生成AIが直接組み込まれたことで、クリエイターが新しいツールを導入するハードルがゼロになった。「使っているプラットフォームの中で、すぐに試せる」というのは、どんな技術的優位性よりも普及力がある。

SynthIDによる透かし — 見えない安全装置

Gemini Omniで生成されたすべての動画には、SynthIDという不可視のデジタル透かしが埋め込まれる。Geminiアプリ、Google検索、Chromeで検証可能で、AIが生成した動画かどうかを確認できる。

動画生成AIが「現実と区別できない映像」を作れるようになった今、この仕組みは重要だ。Googleはデジタルアバター機能（自分そっくりの動画を生成できる機能）のリスクを認識しており、段階的なロールアウトを選んだ点も評価できる。

会話型編集が開く可能性

Gemini Omniの意義は、動画生成AIの競争軸を「品質」から「体験」にシフトさせたことにある。

具体的に想像してみると、このアプローチが広がれば面白いことが起きる。たとえばECサイトの商品動画。商品画像を1枚渡して「この商品をキッチンで使っているシーンを作って」と指示し、「テーブルの色を白に」「カメラを少し引いて」と微調整していく。専門の映像チームがいなくても、ブランドイメージに合った商品動画が作れる世界が近づいている。

教育コンテンツでも可能性がある。「光合成のプロセスを動画にして」と頼み、「もう少しゆっくり」「ここにラベルを入れて」と対話しながら教材を作っていく。Google FlowとGeminiアプリの組み合わせが成熟すれば、これは現実的なワークフローになるだろう。

ただし現時点では10秒の壁がある。この制約が緩和されるまで、本格的な動画制作への適用は限定的だ。YouTube Shortsやソーシャルメディア向けの短尺コンテンツで試しながら、進化を見守るのが現実的な使い方になる。

Gemini Omniは「最もきれいな動画を作るAI」ではない。だが「最もストレスなく動画を作れるAI」にはなりうる。映像品質の競争はSeedanceとKlingに任せて、UXで勝負する。Googleらしい選択だと思う。

Gemini Omniは「動画を会話で直すAI」だった — 生成の精度より編集体験で勝負する理由

「直す」ができる動画AIは、これが初めて

使える場所と料金

10秒の壁と、画質の現実

Seedance 2.0やKling 3.0にないもの

SynthIDによる透かし — 見えない安全装置

会話型編集が開く可能性

関連記事

Google Flowが「話せば動画ができる」ツールになった — I/O 2026で追加されたFlow Agentの実力

Googleが「Omni」という動画AIを隠し持っていた — I/O直前のリークが示す3つのシナリオ

Antigravityからエディタが消えた — Google I/O 2026で発表された「2.0」は、もはやIDEではない