動画を「生成」ではなく「理解」するAIが出てきた — TwelveLabs Rodeoという新しいアプローチ

動画AIと聞くと、Sora、Veo、Seedanceのような「ゼロから映像を生成する」ツールを思い浮かべる人が多いだろう。だが現場で動画を作っている人たちが本当に苦しんでいるのは、撮影済みの素材が多すぎて目的のカットが見つからない、という問題だったりする。

TwelveLabs Rodeoは、そこに正面から取り組んだAIだ。動画を「作る」のではなく「理解する」。数百時間の映像素材に対して自然言語で問いかけ、必要なシーンを見つけ出し、編集し、一本のストーリーに組み立てる。NAB Show 2026で発表されたTwelveLabs初のアプリケーション製品で、従来はAPI提供のみだった同社が一般クリエイター向けに踏み出した形になる。

映像を「読める」AI

Rodeoの核になっているのは、TwelveLabs独自のMarengo 3.0とPegasus 1.5という2つのモデルだ。

ほとんどの動画検索ツールは、文字起こしテキストを手がかりにしている。発言内容から探すので、無言のシーンや環境音だけのカットは見つけられない。Rodeoのアプローチは違う。映像、音声、テキスト、動き、シーンの雰囲気をマルチモーダルに理解する。「夕焼けの中で走っている人物」「製品を手に取って笑顔を見せているシーン」といった視覚的な検索が自然言語で通る。

Pegasus 1.5は最大1時間の動画をそのまま理解できる。長尺の素材を分割せずに投げられるので、ドキュメンタリーや企業イベントの素材整理にも使える。

使い方のイメージ

具体的なワークフローはこうだ。まず手持ちの映像素材をRodeoにアップロードする。AIが全素材を「視聴」して内容を理解する。その後、「先週のイベントで参加者が拍手しているシーンを集めて」「製品デモのハイライトを3分にまとめて」のように自然言語で指示すると、AIが該当するクリップを抽出・編集・並べ替えてくれる。

これは控えめに言ってすごいことだと思う。従来、数百時間の素材からハイライトを作る作業は、アシスタントディレクターが丸一日かけてやる仕事だった。それが自然言語の指示数回で済むなら、制作の速度が根本的に変わる。

料金

1分あたり0.033ドル（約5円）から。無料プランも用意されている。100分の動画を処理しても約500円という計算になるので、個人クリエイターでも手が出る価格帯だ。

Sora世代の動画AIとは競合しない

ここが面白いところで、RodeoはSoraやVeo 3とは直接競合しない。生成AIは「無から映像を作る」ツール、Rodeoは「既にある映像を活用する」ツールだ。むしろ補完関係にある。

たとえばVeo 3でプロモーション映像の一部を生成し、撮影済みの実写素材とRodeoで組み合わせる、という使い方が現実的に見えてくる。「AIで生成した素材」と「人間が撮影した素材」をシームレスに統合する編集体験は、まだどのツールも実現していない。RodeoとSora世代のツールが組み合わさったとき、動画制作のワークフロー自体が変わる可能性がある。

気になる点

まだ初期製品のため、対応フォーマットやエクスポート形式の制限がどこまであるかは不透明だ。またNAB Showでの発表が中心で、一般公開の範囲やウェイトリストの有無は公式サイトで確認する必要がある。

映像理解の精度も、ジャンルによってばらつきがあるだろう。スポーツ中継のような動きの速い映像と、インタビューのような静的な映像では、検索精度に差が出ても不思議ではない。

とはいえ「素材が多すぎて管理しきれない」問題は映像制作の永遠の課題であり、それを自然言語で解決しようとするアプローチには可能性を感じる。YouTuber、ドキュメンタリー制作者、企業のマーケティングチームなど、大量の素材を日常的に扱う人ほど恩恵が大きいツールだ。

動画を「生成」ではなく「理解」するAIが出てきた — TwelveLabs Rodeoという新しいアプローチ

映像を「読める」AI

使い方のイメージ

料金

Sora世代の動画AIとは競合しない

気になる点

関連記事

画面録画を放り込むと、台本も「自分の声」のナレーションも付いて返ってくる — Velo 3.0の正体

AIに動画を編集させても、タイムラインはちゃんと残る — ChatCutが選んだ「中間」の賢さ

CapCut vs Vrew vs Descript — AI動画編集ツール3強比較【2026年版】