映像と一緒にセリフも効果音も出てくる — Grok Imagine Video 1.5、動画生成AIリーダーボード1位の中身
Artificial AnalysisのVideo Arena Image-to-Videoリーダーボードで、Grok Imagine Video 1.5が1位を獲った。
Seedance 2.0、HappyHorse 1.0、Google Veoをブラインドテストで上回り、前バージョン(1.0)から Elo +52ポイントの跳躍。5月30日にプレビュー公開、6月4日にElon Muskが正式ローンチを確認した。
数字だけならよくあるリーダーボード更新のニュースだが、このモデルで一番変わったのはスコアではない。映像と音声をまとめて1パスで生成する仕組みが本格的に動き始めたことだ。
「音声は別で作る」がなくなった
AI動画生成の定番ワークフローを思い出してほしい。Runway Gen-4やKling 3で映像を作り、ElevenLabsで音声を合成し、タイムラインエディタで尺を合わせる。この3ステップが、Grok Imagine Video 1.5では1回の生成で完結する。
ネイティブオーディオ同期と呼ばれるこの仕組みでは、映像の生成と同時にBGM、効果音、リップシンク対話が出力される。音声だけ後から貼り付けるのではなく、Auroraエンジン(xAI独自の自己回帰型MoEアーキテクチャ)がテキスト・画像・動画・音声のトークンをインターリーブ処理する。
v1.0でもBGMと効果音は付いていた。1.5で変わったのは対話の質だ。文レベルのイントネーション、自然な間の取り方、シーン環境に応じた環境音レイヤーが加わった。要するに、キャラクターに「喋らせる」ことが現実的になった。
スペックと料金
| 項目 | 仕様 |
|---|---|
| 解像度 | 480p / 720p |
| フレームレート | 24fps |
| 長さ | 1〜15秒(v1.0は最大10秒) |
| アスペクト比 | 7種類(1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3) |
| 生成時間 | 10〜30秒(音声込み) |
| 対応モード | テキスト→動画、画像→動画、動画延長、リファレンスガイド |
API料金は480pが1秒あたり$0.08(約12円)、720pが$0.14(約21円)。v1.0の$0.05から値上がりしているが、音声生成が込みであることを考えると、別途ElevenLabsなどのTTSサービスを使うコストが不要になる分、トータルではむしろ安い。
15秒の720p動画で$2.10(約320円)。同じ尺をRunway Gen-4で映像だけ作ると$0.50〜$1.00程度かかり、そこにナレーションや効果音の生成・編集コストが乗る。ワンストップの手軽さを金額だけで比較するのは難しいが、ショート動画のプロトタイピングなら十分安い。
競合との位置関係
リーダーボード1位とはいえ、すべてのユースケースでGrokが最善というわけではない。
映像品質だけなら、Seedance 2.0やHappyHorse 1.0が依然として強い。特にSeedance 2.0の4Kシネマティック出力は、Grokの720p上限とは別カテゴリだ。映画級の映像が欲しければSeedanceやRunway Gen-4.5を選ぶべきだろう。
編集の柔軟性では、Runway Gen-4ファミリーのMotion BrushやDirector Modeに一日の長がある。Grokは「生成して出す」には強いが、細かい演出コントロールはまだこれからだ。
Grokが刺さるのは「映像+音声をまとめて、速く、安く作りたい」ケース。SNSのショート動画、広告のモックアップ、プレゼン用のデモ映像あたりが最も相性がいい。音声合成サービスとの連携や、タイムラインでの尺合わせといった手間がゼロになるのは、本数を量産する人にとっては地味に大きい。
正直な評価
強い点:
ネイティブオーディオ同期は現時点で唯一無二と言っていい。Veo 3.1もオーディオ付き出力に対応しているが、Grok 1.5のリップシンク精度と環境音の文脈適応はワンランク上に感じる。生成速度も10〜30秒と十分速い。
微妙な点:
720pが上限なのは2026年半ばとしては物足りない。Kling 3は4K/60fps、Seedance 2.0も4K対応を済ませている。また「プレビュー」の冠が付いている通り、画質やオーディオの安定性にばらつきがある。Fun/Normal/Spicyのクリエイティブモード設定は面白いが、プロダクション用途では細かい演出パラメータが欲しくなる場面が出てくるだろう。
リップシンク対話が開く可能性
音声と映像の同時生成が実用レベルになったことで、いくつかの使い方が現実味を帯びる。
たとえばeコマースの商品紹介動画。商品画像1枚とテキストプロンプトを投げれば、ナレーション付きの15秒デモ動画が30秒以内に出てくる。これまで外注すれば数万円、自前で作っても半日かかっていた作業が、1本300円台で回せる。
教育コンテンツも面白い。解説キャラクターにリップシンクで喋らせて、短尺の学習動画を量産する。音声の別撮り・合成が不要なので、非エンジニアでもワークフローが成立する。
もちろん、720pの解像度制限やプレビュー段階のばらつきを考えると、今すぐプロダクション品質で使い倒せるかは微妙なところだ。ただ、「映像+音声の一括生成」という方向性自体は、間違いなく動画生成AIの次のスタンダードになる。xAI公式がこの路線をどこまで磨き上げるか、注目しておいて損はない。
関連記事
Grok、1分の録音で自分の声をクローンできるようになった — Custom Voices API
Grok Custom Voices解説。1分の録音でボイスクローン、追加料金なし。ElevenLabsとの比較も。
Soraが消えた世界で、Grok Imagineが静かに「1秒5円」の動画生成インフラになっていた
xAI Grok Imagineの動画生成機能を時系列で総整理。API $0.05/秒の衝撃、Extend from Frame、Quality/Speedモード、競合比較まで解説
月12億本の動画を生成するGrok Imagine — Quality・Speed・Proの3モード体制で何が変わるのか
xAIのGrok ImagineにQuality・Speed・Proの3モードが追加。月12億本を生成するAI動画プラットフォームの新機能、料金体系、無料枠廃止の影響、Runway等との比較を解説