Hailuo 2.3が静かに最強になっていた — MiniMaxが価格据え置きで仕掛けた"物量戦"
AI動画生成の主戦場に、またプレイヤーが戻ってきた。中国上海のMiniMaxが「Hailuo 2.3」をリリースした。派手さはないが、触ってみると効いてくる系のアップデートだ。
「2.3」という控えめな番号の裏
先に料金の話だけしておく。Hailuo 2.3の価格は、前モデルのHailuo 02から据え置きだ。性能を伸ばしながら値段を一切上げていない。MiniMaxの公式ブログは「more for the same price」と書いている。
正直、この業界でこの一文を出してくる会社は今どきそう多くない。OpenAIもAnthropicも、モデルが賢くなるたびに入出力単価が上がるか、旧モデルのコンテキスト上限が縮むか、ベンチマーク上位の推論は追加課金になるか——のどれかだ。MiniMaxはそこで「据え置き」を選んだ。
それができるのは、後述する通りHailuo 2.3の改善点がアーキテクチャの土台からではなく、チューニングとデータ側に寄っているからだと思う。それでも、ユーザーから見れば十分うれしい話だ。
具体的に何が変わったのか
Hailuo 2.3のアップデートポイントを、公式アナウンスとfal.ai・Higgsfieldの告知から整理するとこうなる。
物理描写の精度向上。 キャラクターの身体の動きがより流暢で自然に、コマンドに対する反応もより正確になっている。前世代のHailuo 02でも「水の飛沫」や「布の揺れ」はそれなりに描けたが、2.3ではキャラクターが階段を駆け下りたり、物を投げたりするような連続的で複雑なアクションのブレが減った。
微表情のリアリズム。 実写系の顔表情、特に目元・口元の微細な動きがかなり自然になった。アップの顔ショットで、旧モデルだと「AIが描いた人形」っぽさが抜けきらなかったが、2.3では実写と判別しにくくなってきている。短尺のCMやブランド動画で使うと効果が出るタイプの改善だ。
スタイライズ対応の拡張。 個人的にここが一番注目している点で、アニメ・イラスト・水墨画・ゲームCGといった非写実系のスタイルへの対応が強化された。特に水墨画(ink wash painting)への言及があるのは面白い。Kling 3.0やVeo 3.1は実写系の精度で攻めてきているが、MiniMaxは東洋系の非写実スタイルで差別化しようとしている節がある。
Kling 3.0・Seedance 2.0との立ち位置
現状、中国系AI動画モデルの主要プレイヤーは3つにほぼ収斂している。Kling 3.0(Kuaishou)、Seedance 2.0(ByteDance)、そしてHailuo(MiniMax)だ。
ざっくり役割分担を書くとこうなる。
- Kling 3.0: ネイティブ4K・60fps、実写系の最高品質。マルチショットストーリーボード対応
- Seedance 2.0: マルチモーダル統合(映像+音声同時生成)が強い。image-to-videoで1位
- Hailuo 2.3: 実写の微表情とスタイライズ、コスパ重視。アニメ/水墨画対応
筆者の感覚では、実写の広告動画ならSeedance、映像品質優先ならKling、コスト意識とアニメ系ワークフローがあるならHailuo、という住み分けになる。Artificial AnalysisのText-to-videoリーダーボードでは上位3位をこの3モデルが争っていて、残りのVeo 3.1・Sora 2・Pikaはやや離されつつある。
日本のクリエイター目線で見ると
日本で使うユーザーにとって、Hailuo 2.3の魅力は2つある。
ひとつはアニメ・イラストスタイルの描き分けだ。Klingもアニメ調は出せるが、「それっぽい絵」どまりで、線画の繊細さやセルルックの陰影はまだ弱い。Hailuo 2.3は公式デモ動画を見るかぎり、このあたりに踏み込んでいる。同人アニメやVTuber系の動画制作で、ここが効くケースは結構ありそうだ。
もうひとつはHailuo Agent。Hailuo 2.3と同時にアナウンスされた新機能で、日本語のCM動画を自動生成するAIエージェントが含まれている。ブランドの素材と簡単な指示だけで、テンプレートベースのCMが組み上がる仕組みらしい。これがまともに動けば、中小企業のSNS広告制作のコストを一桁下げる可能性がある。
試せる場所は増えていて、公式サイト以外にもfal.aiやHiggsfield、VEEDが即日対応した。API経由で組み込めるので、既存の動画生成ワークフローへの差し込みは難しくない。
微妙な点と、待つべき人
褒めるばかりだと偏るので、正直に微妙な点も書いておく。
まず、ベンチマーク上の首位ではない。Text-to-videoの音声なしカテゴリでKlingが、音声付きでSeedanceがトップを取っている状況は変わらない。Hailuo 2.3は「実用でバランスが良い」タイプの改善で、尖った数字で押し込むモデルではない。スペックシートで製品を選ぶ人には響きにくいだろう。
次に、解像度。Kling 3.0が4K/60fpsをネイティブで出せるのに対して、Hailuo 2.3は依然として1080pが主戦場だ。YouTube向けに4K納品が必要なプロのクリエイターには、これが決定的な差になる場面がある。
最後に、日本語プロンプトの安定性。公式には日本語対応を謳っているが、複雑なシーン指示(カメラワーク・演出意図を含むもの)を日本語で書くと、英語プロンプトと比べて解釈の揺れが残る印象がある。ここはプロンプトを英訳して投げる運用が現実的だと思う。
まとめ
Hailuo 2.3は「王者交代」を狙う派手なリリースではない。むしろ据え置き価格のまま静かに実用性を上げる、地に足のついたアップデートだ。
実写の広告動画ならSeedance、4K映像品質ならKling、コスパとアニメ/水墨画スタイルならHailuo——という現在の三つ巴は、しばらく続くと思う。AI動画生成を業務で使うなら、1つに絞らず複数を併用してタスクごとに使い分けるのが、2026年春時点の現実解だ。
関連記事
Claude Codeに「画像も動画も音楽も生成させる」CLIが出た — MiniMaxのMMX-CLIが地味に効く理由
中国MiniMaxが2026年4月12日に公開したOSSのCLI「MMX-CLI」。Claude CodeやCursorに画像・動画・音声・音楽・検索の7モダリティをMCPなしで足せる。インストール手順と用途、MCPとの違いを整理する。
参照画像を混ぜるだけで一貫した動画が作れる — 中国発AI動画モデル「Vidu Q3」の新機能
ShengShu Technologyが2026年4月13日に発表したVidu Q3 Reference-to-Videoを解説。キャラクター・衣装・小道具を参照画像で指定して16秒の一貫動画を生成できる新機能の中身と、Kling・Seedanceとの違いを整理する。
画像生成AIにも「考えてから描く」時代 — Alibaba Wan 2.7のThinking Modeが面白い
Alibabaの新モデルWan 2.7を解説。プロンプトを推論してから生成するThinking Mode、千面リアリズム、9枚リファレンス画像対応など、画像・動画生成の新しい切り口を整理する。