FlowTune Media

HappyHorse-1.0 — 正体不明のまま首位になった動画AIが、Alibabaだった

4月7日、Artificial AnalysisのVideo Arenaに「HappyHorse-1.0」という名前のモデルが唐突に現れた。所属企業の表記なし、公式サイトもなく、X上に作りたてのアカウントがあるだけ。それがブラインドテストのテキスト-to-ビデオ部門で突然1位を取った。

首位に座っていたByteDanceのSeedance 2.0が、60ポイント近い大差で引きずり降ろされた。イメージ-to-ビデオに至ってはEloスコア1391〜1406という歴代最高値だ。このスケールの更新が、誰が作ったかもわからないモデルで起きる。AI動画界隈がざわついた。

そして4月10日、Alibabaが「作ったのはうちです」と手を挙げた。

誰が作ったのか

HappyHorse-1.0の開発元は、Alibaba傘下Taotian Group内の「Future Life Lab」。リードするのは張迪(Zhang Di)。元Kuaishou(快手)のVPで、動画生成モデルKlingの技術責任者だった人物だ。KlingからAlibabaに移籍していたことは公にはなっていなかった。Bloombergが「ステルスAlibabaモデル、デビュー戦でグローバル首位」と書いた通り、プロジェクト自体が水面下で進んでいた。

前職のKlingもベンチマークで何度も上位に食い込んでいたモデルだ。そのキーマンがAlibaba側で再登板し、最初に出してきたものがリーダーボード首位。偶然ではない。

個人的な話をすれば、Klingの初期バージョンを触ったときに感じた「モーションの自然さ」と「カメラワークの素直さ」は、今回のHappyHorseのサンプル映像にも通底している気がする。技術者のDNAは製品に残る。

15Bパラメータ、Apache 2.0、H100で38秒

スペックを並べると、HappyHorse-1.0の立ち位置がはっきりする。

  • パラメータ数: 15B
  • ライセンス: Apache 2.0(商用利用可)
  • 出力: 1080p動画 + 同期音声
  • 対応言語: マンダリン、広東語、英語、日本語、韓国語、ドイツ語、フランス語(ネイティブリップシンク)
  • 推論: CFG不要の8ステップデノイジング
  • 速度: 単一のNVIDIA H100で1080p動画を38秒

Apache 2.0で出したことの意味は大きい。 モデル重み、蒸留版、超解像モジュール、推論コードが全部GitHubとHugging Face上に置かれている。商用利用OKで、派生モデルを作る自由もある。Veo 3.1(Google Cloud経由のAPI)やSora 2(OpenAI API)とは前提が違う。自社のGPUで動かせるなら、API料金を気にせずひたすら生成できる。

そして日本語リップシンクが最初から対応しているのは、率直にありがたい。現状、日本語でまともに口パクが合うAI動画モデルはほとんどない。Veo 3.1は英語中心、Seedance 2.0も日本語の発音は苦しい。ここに風穴が開いた形だ。

60点差は何を意味するか

Artificial AnalysisのVideo Arenaは、匿名ユーザーが2つのモデルの出力を見比べて「どっちが良いか」を投票するブラインドテストだ。内部ベンチマークと違って、主観の塊。だが集計が進むとEloスコアとしてきれいに並ぶ。

現時点のスコアを並べるとこうなる。

モデル Text-to-Video (無音) Image-to-Video (無音)
HappyHorse-1.0 1333〜1357 1391〜1406
Seedance 2.0 1273 1351

Eloで60ポイントは、チェスで言えばアマチュアと専門家くらいの差がある。しかも、先月この座に就いたばかりのSeedance 2.0をここまで突き放している。AI動画モデルの進化速度が単純に異常なのだ。

音声付きカテゴリでは2位に甘んじているが、これはおそらく音声と映像を完全に統合生成する領域で先行していたSeedance 2.0(Dual-Branch Diffusion Transformer)の蓄積が効いている。HappyHorseもこのカテゴリは「まだ開発途中」と明言していて、伸びしろは残っている。

オープンソースで出す戦略の読み方

ここが今回のいちばん面白い論点だ。

Alibabaが自社の最強クラスの動画モデルをApache 2.0で公開する選択は、純粋な技術公開ではなく戦略の一手として読むべきだろう。GoogleはVeoをAPI独占、OpenAIはSoraを限定提供、ByteDanceはSeedanceを垂直統合(CapCut連携)という形で、クローズドに握っている。その真反対を選んだ。

同時期にGemma 4GLM 5.1Mistral Small 4といった「フロンティア近傍のOSSモデル」が大量に出てきている中で、HappyHorseは「動画生成版のそれ」として位置付けられる。

オープンソース化のメリットは少なくとも3つある。

1. 開発者コミュニティの取り込み: LoRAやファインチューンの派生が勝手に量産される。これは長期的にエコシステムの重力になる。Stable Diffusionが画像生成で起きたのと同じ構造だ。

2. クラウド販売の客寄せ: Alibaba Cloud上で「HappyHorseを動かせる最適化済み環境」を売れば、モデル自体は無料でもGPU時間で回収できる。Alibaba Cloudの弱みはAWSやGCPに比べた知名度だが、「うちでしか最速で動かせない自社モデル」を持つことで差別化の軸ができる。

3. 規制と地政学の緩和: 完全オープンソースなら「データがAlibabaサーバーに送られる」という懸念を回避できる。自社インフラで完結する選択肢がある時点で、エンタープライズ導入の心理的ハードルは大きく下がる。Seedance 2.0がデータプライバシーの文脈で警戒されたのと対照的だ。

触ってみて分かるHappyHorseの癖

まだ公開数日なので深い検証はこれからだが、いくつか触れた範囲での所感を残す。

まず、単一H100で38秒という推論速度は体感でかなり速い。比較対象として、Kling 3が同解像度で1〜2分、Seedance 2.0がクラウド経由で30〜60秒程度。ローカルでこのスピードは驚きに近い。CFG(classifier-free guidance)を使わない8ステップデノイジングのアーキテクチャが効いている。

一方で、サンプルの映像を見る限り、超絶リアルな物理演算ではSora 2に及ばない。金属の反射や流体の動きといった物理シミュレーション的な表現は、まだ現実離れしたものが混じる。写実一発勝負ならSora 2に分があるだろう。

日本語リップシンクは想像以上にまともだった。ただし、短い単語単位ではよく合うが、長文でリズムが崩れる瞬間がある。これはKling譲りの癖に近い。

何が実現できるか、少し考える

HappyHorseがOSSで降ってきたことで、日本のクリエイターやスタートアップにとって開ける道は広い。

国内向けショート動画の量産: 日本語リップシンクが最初から使えるので、タレントを撮影せずに国内向けCM・企業紹介・教育コンテンツの試作ができる。これまでHeyGenやDesignovaのような海外SaaSに頼っていた領域に、OSSの選択肢が入る。

カスタムファインチューン: Apache 2.0なので、特定のアニメ絵柄や実写スタイルに特化したHappyHorseを作ることが技術的に可能になる。Stable Diffusionで起きた「SD派生モデル戦国時代」と同じ現象が、動画生成で起きる可能性がある。もしそれが実現すれば、1本数千円のAPIに縛られない制作パイプラインが組める。

エッジデプロイへの布石: 現状はH100前提だが、蒸留版がすでに公開されている。コミュニティの手で軽量化が進めば、将来的にコンシューマGPUで動く派生版が出てくるシナリオは現実的だ。Gemma 4がスマホで動くようになったように、「自宅のRTX 4090で回すAI動画生成」が目の前にある。

正直に書いておく懸念

いい話ばかりではない。

まず命名。「HappyHorse」はAlibaba側の好奇心を誘う遊びだったのだろうが、プロダクト名としては検索性が悪く、ブランドの厳粛さもない。企業が業務用途で採用する際に、社内提案で名前を出しづらいというのは冗談抜きで発生する。

ライセンスの細則。Apache 2.0と言ってもAlibabaの「開発中」表記が残っていて、正式リリース時に追加条項がつく可能性はゼロではない。特に出力映像の商用利用範囲や、ファインチューン派生物の扱いは、利用規約を注意深く読むべきだろう。

サポート体制。OSSゆえに、困ったときに公式サポートを受けられない。ドキュメントはGitHub依存、エンタープライズ導入時のSLAはない。本番システムに組み込むなら、Alibaba Cloudの有料マネージドサービスが出るのを待つのが無難かもしれない。

日本からの可用性。Hugging Faceからの重みダウンロード自体は可能だが、公式デモサイト(happyhorse.mobi等)へのアクセスは国・地域で制限される可能性がある。ローカル環境で動かすのが前提の人にとっては問題ないが、手軽に試したい層には障壁になる。

立ち位置のまとめ

HappyHorse-1.0は、AI動画生成の勢力図を一夜で塗り替えた。ベンチマーク首位という事実と、Apache 2.0のオープンソースという事実が、同時に成立している。この組み合わせはこれまでなかった。

性能単体で言えば、Sora 2の物理リアリズムやVeo 3.1のシネマグレードには場面ごとに譲る。万能の王者ではない。だが「使いたい時に自由に使える」という制約のなさは、クローズドモデルにはない価値だ。Seedance 2.0から首位を奪還した中国勢の動きとしても見どころがある。

個人的には、張迪が一度Klingで見せた方向性を、より開かれた形でやり直しにきたように見える。2026年の動画生成は、HappyHorseが来る前と後で語られるようになるかもしれない。

HappyHorse 1.0 公式 / Hugging Face

関連記事