映像と一緒にセリフも効果音も出てくる — Grok Imagine Video 1.5、動画生成AIリーダーボード1位の中身

Artificial AnalysisのVideo Arena Image-to-Videoリーダーボードで、Grok Imagine Video 1.5が1位を獲った。

Seedance 2.0、HappyHorse 1.0、Google Veoをブラインドテストで上回り、前バージョン（1.0）から Elo +52ポイントの跳躍。5月30日にプレビュー公開、6月4日にElon Muskが正式ローンチを確認した。

数字だけならよくあるリーダーボード更新のニュースだが、このモデルで一番変わったのはスコアではない。映像と音声をまとめて1パスで生成する仕組みが本格的に動き始めたことだ。

「音声は別で作る」がなくなった

AI動画生成の定番ワークフローを思い出してほしい。Runway Gen-4やKling 3で映像を作り、ElevenLabsで音声を合成し、タイムラインエディタで尺を合わせる。この3ステップが、Grok Imagine Video 1.5では1回の生成で完結する。

ネイティブオーディオ同期と呼ばれるこの仕組みでは、映像の生成と同時にBGM、効果音、リップシンク対話が出力される。音声だけ後から貼り付けるのではなく、Auroraエンジン（xAI独自の自己回帰型MoEアーキテクチャ）がテキスト・画像・動画・音声のトークンをインターリーブ処理する。

v1.0でもBGMと効果音は付いていた。1.5で変わったのは対話の質だ。文レベルのイントネーション、自然な間の取り方、シーン環境に応じた環境音レイヤーが加わった。要するに、キャラクターに「喋らせる」ことが現実的になった。

スペックと料金

項目	仕様
解像度	480p / 720p
フレームレート	24fps
長さ	1〜15秒（v1.0は最大10秒）
アスペクト比	7種類（1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3）
生成時間	10〜30秒（音声込み）
対応モード	テキスト→動画、画像→動画、動画延長、リファレンスガイド

API料金は480pが1秒あたり$0.08（約12円）、720pが$0.14（約21円）。v1.0の$0.05から値上がりしているが、音声生成が込みであることを考えると、別途ElevenLabsなどのTTSサービスを使うコストが不要になる分、トータルではむしろ安い。

15秒の720p動画で$2.10（約320円）。同じ尺をRunway Gen-4で映像だけ作ると$0.50〜$1.00程度かかり、そこにナレーションや効果音の生成・編集コストが乗る。ワンストップの手軽さを金額だけで比較するのは難しいが、ショート動画のプロトタイピングなら十分安い。

競合との位置関係

リーダーボード1位とはいえ、すべてのユースケースでGrokが最善というわけではない。

映像品質だけなら、Seedance 2.0やHappyHorse 1.0が依然として強い。特にSeedance 2.0の4Kシネマティック出力は、Grokの720p上限とは別カテゴリだ。映画級の映像が欲しければSeedanceやRunway Gen-4.5を選ぶべきだろう。

編集の柔軟性では、Runway Gen-4ファミリーのMotion BrushやDirector Modeに一日の長がある。Grokは「生成して出す」には強いが、細かい演出コントロールはまだこれからだ。

Grokが刺さるのは「映像＋音声をまとめて、速く、安く作りたい」ケース。SNSのショート動画、広告のモックアップ、プレゼン用のデモ映像あたりが最も相性がいい。音声合成サービスとの連携や、タイムラインでの尺合わせといった手間がゼロになるのは、本数を量産する人にとっては地味に大きい。

正直な評価

強い点:

ネイティブオーディオ同期は現時点で唯一無二と言っていい。Veo 3.1もオーディオ付き出力に対応しているが、Grok 1.5のリップシンク精度と環境音の文脈適応はワンランク上に感じる。生成速度も10〜30秒と十分速い。

微妙な点:

720pが上限なのは2026年半ばとしては物足りない。Kling 3は4K/60fps、Seedance 2.0も4K対応を済ませている。また「プレビュー」の冠が付いている通り、画質やオーディオの安定性にばらつきがある。Fun/Normal/Spicyのクリエイティブモード設定は面白いが、プロダクション用途では細かい演出パラメータが欲しくなる場面が出てくるだろう。

リップシンク対話が開く可能性

音声と映像の同時生成が実用レベルになったことで、いくつかの使い方が現実味を帯びる。

たとえばeコマースの商品紹介動画。商品画像1枚とテキストプロンプトを投げれば、ナレーション付きの15秒デモ動画が30秒以内に出てくる。これまで外注すれば数万円、自前で作っても半日かかっていた作業が、1本300円台で回せる。

教育コンテンツも面白い。解説キャラクターにリップシンクで喋らせて、短尺の学習動画を量産する。音声の別撮り・合成が不要なので、非エンジニアでもワークフローが成立する。

もちろん、720pの解像度制限やプレビュー段階のばらつきを考えると、今すぐプロダクション品質で使い倒せるかは微妙なところだ。ただ、「映像＋音声の一括生成」という方向性自体は、間違いなく動画生成AIの次のスタンダードになる。xAI公式がこの路線をどこまで磨き上げるか、注目しておいて損はない。

映像と一緒にセリフも効果音も出てくる — Grok Imagine Video 1.5、動画生成AIリーダーボード1位の中身

「音声は別で作る」がなくなった

スペックと料金

競合との位置関係

正直な評価

リップシンク対話が開く可能性

関連記事

1秒未満で返答するAI音声 — Grok Voiceが250万以上の音声エージェントのデフォルトに

Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API

Soraが消えた世界で、Grok Imagineが静かに「1秒5円」の動画生成インフラになっていた