FlowTune Media

映像と一緒にセリフも効果音も出てくる — Grok Imagine Video 1.5、動画生成AIリーダーボード1位の中身

Artificial AnalysisのVideo Arena Image-to-Videoリーダーボードで、Grok Imagine Video 1.5が1位を獲った。

Seedance 2.0、HappyHorse 1.0、Google Veoをブラインドテストで上回り、前バージョン(1.0)から Elo +52ポイントの跳躍。5月30日にプレビュー公開、6月4日にElon Muskが正式ローンチを確認した。

数字だけならよくあるリーダーボード更新のニュースだが、このモデルで一番変わったのはスコアではない。映像と音声をまとめて1パスで生成する仕組みが本格的に動き始めたことだ。

「音声は別で作る」がなくなった

AI動画生成の定番ワークフローを思い出してほしい。Runway Gen-4やKling 3で映像を作り、ElevenLabsで音声を合成し、タイムラインエディタで尺を合わせる。この3ステップが、Grok Imagine Video 1.5では1回の生成で完結する。

ネイティブオーディオ同期と呼ばれるこの仕組みでは、映像の生成と同時にBGM、効果音、リップシンク対話が出力される。音声だけ後から貼り付けるのではなく、Auroraエンジン(xAI独自の自己回帰型MoEアーキテクチャ)がテキスト・画像・動画・音声のトークンをインターリーブ処理する。

v1.0でもBGMと効果音は付いていた。1.5で変わったのは対話の質だ。文レベルのイントネーション、自然な間の取り方、シーン環境に応じた環境音レイヤーが加わった。要するに、キャラクターに「喋らせる」ことが現実的になった。

スペックと料金

項目 仕様
解像度 480p / 720p
フレームレート 24fps
長さ 1〜15秒(v1.0は最大10秒)
アスペクト比 7種類(1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3)
生成時間 10〜30秒(音声込み)
対応モード テキスト→動画、画像→動画、動画延長、リファレンスガイド

API料金は480pが1秒あたり$0.08(約12円)、720pが$0.14(約21円)。v1.0の$0.05から値上がりしているが、音声生成が込みであることを考えると、別途ElevenLabsなどのTTSサービスを使うコストが不要になる分、トータルではむしろ安い。

15秒の720p動画で$2.10(約320円)。同じ尺をRunway Gen-4で映像だけ作ると$0.50〜$1.00程度かかり、そこにナレーションや効果音の生成・編集コストが乗る。ワンストップの手軽さを金額だけで比較するのは難しいが、ショート動画のプロトタイピングなら十分安い。

競合との位置関係

リーダーボード1位とはいえ、すべてのユースケースでGrokが最善というわけではない。

映像品質だけなら、Seedance 2.0やHappyHorse 1.0が依然として強い。特にSeedance 2.0の4Kシネマティック出力は、Grokの720p上限とは別カテゴリだ。映画級の映像が欲しければSeedanceやRunway Gen-4.5を選ぶべきだろう。

編集の柔軟性では、Runway Gen-4ファミリーのMotion BrushやDirector Modeに一日の長がある。Grokは「生成して出す」には強いが、細かい演出コントロールはまだこれからだ。

Grokが刺さるのは「映像+音声をまとめて、速く、安く作りたい」ケース。SNSのショート動画、広告のモックアップ、プレゼン用のデモ映像あたりが最も相性がいい。音声合成サービスとの連携や、タイムラインでの尺合わせといった手間がゼロになるのは、本数を量産する人にとっては地味に大きい。

正直な評価

強い点:

ネイティブオーディオ同期は現時点で唯一無二と言っていい。Veo 3.1もオーディオ付き出力に対応しているが、Grok 1.5のリップシンク精度と環境音の文脈適応はワンランク上に感じる。生成速度も10〜30秒と十分速い。

微妙な点:

720pが上限なのは2026年半ばとしては物足りない。Kling 3は4K/60fps、Seedance 2.0も4K対応を済ませている。また「プレビュー」の冠が付いている通り、画質やオーディオの安定性にばらつきがある。Fun/Normal/Spicyのクリエイティブモード設定は面白いが、プロダクション用途では細かい演出パラメータが欲しくなる場面が出てくるだろう。

リップシンク対話が開く可能性

音声と映像の同時生成が実用レベルになったことで、いくつかの使い方が現実味を帯びる。

たとえばeコマースの商品紹介動画。商品画像1枚とテキストプロンプトを投げれば、ナレーション付きの15秒デモ動画が30秒以内に出てくる。これまで外注すれば数万円、自前で作っても半日かかっていた作業が、1本300円台で回せる。

教育コンテンツも面白い。解説キャラクターにリップシンクで喋らせて、短尺の学習動画を量産する。音声の別撮り・合成が不要なので、非エンジニアでもワークフローが成立する。

もちろん、720pの解像度制限やプレビュー段階のばらつきを考えると、今すぐプロダクション品質で使い倒せるかは微妙なところだ。ただ、「映像+音声の一括生成」という方向性自体は、間違いなく動画生成AIの次のスタンダードになる。xAI公式がこの路線をどこまで磨き上げるか、注目しておいて損はない。

関連記事