FlowTune Media

2ヶ月間、匿名で世界1位を走り続けたAIモデルの正体は中国のフードデリバリー企業だった

4月下旬から、AIモデルのルーティングプラットフォームOpenRouterに「Owl Alpha」と名乗る正体不明のモデルが現れた。

開発元は非公開。ベンチマークも未提出。それでもこのモデルは、月間トークン処理量10.1兆トークン・日次5,590億トークンという圧倒的な利用量で、2ヶ月にわたってOpenRouterのグローバルランキング1位を走り続けた。開発者コミュニティでは「Owl Alphaの正体は何者か」という推測が飛び交っていた。

6月30日、答え合わせがあった。正体は中国のフードデリバリー大手・美団(Meituan)が開発した LongCat-2.0 だった。

フードデリバリー企業がなぜAIモデルを

美団は中国最大級のフードデリバリー・生活サービスプラットフォームだ。日本でいえばUber Eatsと食べログとホットペッパーを合わせたような存在で、時価総額は約15兆円規模。この企業が、なぜ1.6兆パラメータのコーディングモデルを作ったのか。

答えは「自社のAIインフラを外部に依存しない」という戦略にある。美団は数万人規模のエンジニア組織を抱えており、社内のコード生成・レビュー・バグ修正を自前のAIで回すことで、開発効率を根本から変えようとしている。そしてその副産物として生まれたモデルを、オープンソースで世界に公開した。

スペック — 1.6兆パラメータの内訳

LongCat-2.0はMixture-of-Experts(MoE)アーキテクチャを採用している。総パラメータ数は1.6兆だが、1トークンあたり実際に動くのは33B〜56B(平均約48B)パラメータだけだ。つまり、巨大なモデルの中から「今この問題に最適な専門家チーム」だけを選んで使うイメージになる。

主なスペック:

  • 総パラメータ: 1.6兆(MoE)
  • アクティブパラメータ: 33B〜56B/トークン(平均48B)
  • コンテキストウィンドウ: 100万トークン
  • 訓練データ: 30兆トークン以上(中国語・英語・多言語・コード)
  • 独自技術: LongCat Sparse Attention(LSA)による100万トークンの線形計算量処理、Zero-computation experts + ScMoE(簡単なトークンは計算コストゼロ)
  • ライセンス: MIT(商用利用可)

100万トークンのコンテキストウィンドウは、大規模なコードベース全体を一度に読み込んで推論できることを意味する。

ベンチマーク — GPT-5.5は超えた。ただし…

美団が公表したベンチマーク結果は以下の通り。

ベンチマーク LongCat-2.0 比較対象
SWE-Bench Pro 59.5% GPT-5.5: 58.6%
SWE-Bench Multilingual 77.3%
Terminal-Bench 2.1 70.8%
FORTE 73.2% GPT-5.5: 77.8%

SWE-Bench Proでは確かにGPT-5.5を上回っている。しかし正直に言えば、その差はわずか0.9ポイント。Claude Opus 4.7の64.3%やOpus 4.8の69.2%には大きく及ばない。

ここは冷静に見る必要がある。ベンチマークはすべて美団の自己報告値であり、第三者による独立検証はまだ行われていない。ScaleのSWE-Bench標準評価では、ベンダー報告値より10〜30ポイント低く出ることが一般的だ。「GPT-5.5超え」は嘘ではないが、条件付きの事実と捉えるべきだろう。

本当のインパクトは「Nvidiaなし」にある

技術的に最も注目すべきは、このモデルが5万枚以上のHuawei Ascend(Atlas-950)チップだけで訓練されたという事実だ。NvidiaのA100もH100も、AMDのMI300Xも一切使っていない。

米国の輸出規制により、中国企業はNvidiaのAI訓練用最先端チップを入手できない。にもかかわらず、LongCat-2.0はフロンティアモデルに迫る性能を実現した。DeepSeek V4-Proが国産チップを推論のみに使っているのに対し、LongCat-2.0は事前訓練から推論まで全工程を国産チップで完結させた初の兆パラメータモデルとされる。

効率面ではまだ差がある。5万枚というクラスタ規模は相当なもので、Nvidiaチップなら少ない枚数で済んだ可能性は高い。だが「できるか、できないか」という問いに対しては、明確に「できた」という答えが出た。

料金 — DeepSeekに近い価格帯

APIアクセスの料金は、主要モデルと比較して以下の通り。

モデル 入力(100万トークンあたり) 出力(100万トークンあたり)
LongCat-2.0 $0.75(プロモ: $0.30) $2.95(プロモ: $1.20)
DeepSeek V4-Pro $0.435 $0.87
Claude Sonnet 5 $2.00 $10.00
GPT-5.5 $5.00 $30.00

プロモーション価格では入力$0.30/出力$1.20と、DeepSeekに肉薄する安さになる。キャッシュ読み込みは無料。まとめ買いパックは10億トークンあたり約$60(約9,000円)。

コーディングエージェントのように大量のトークンを消費する用途では、この価格差は月額で数万円の違いになりうる。

どこで使えるか

現時点でのアクセス手段は3つ。

  1. longcat.ai — 公式プラットフォーム。無料で試用可能
  2. OpenRouter — API経由。OpenAI/Anthropic互換エンドポイント
  3. Hugging Face — モデルカード公開済み(ウェイトは後日公開予定)

Claude CodeやHermes、OpenClawといったエージェントハーネスからの利用にも対応している。

ひとつ注意点がある。「オープンソース」を謳ってはいるが、2026年7月初旬時点ではモデルウェイトはまだ公開されていない。GitHubリポジトリにはドキュメントとライセンスファイルのみで、「Model weights coming soon」と書かれている。1.6兆パラメータのモデルは2bit量子化でも400GB超のストレージが必要になるため、仮にウェイトが公開されてもローカル実行のハードルは高い。当面はAPI経由での利用が現実的だ。

何が変わるか

LongCat-2.0の登場で起きることを3つ挙げる。

1. コーディングAIの価格競争がさらに加速する。 DeepSeekに続いて、フロンティア級の性能を格安で提供するプレイヤーが現れた。Claude SonnetやGPT-5.5の10分の1以下の価格で「ほぼ同等」の結果が出るなら、コスト重視のプロジェクトではLongCat-2.0を選ぶ合理性がある。

2. 中国AI半導体の自立が加速する。 「Nvidiaなしでもフロンティアモデルは作れる」という実績は、中国のAIチップメーカーにとって最高の営業資料になる。他の中国企業も国産チップへの移行を検討しやすくなる。

3. 「匿名リリース → 実力で証明 → 正体公開」という新しいモデル発表戦略が確立されつつある。 ブランドバイアスを排除して純粋に性能で評価させるこのアプローチは、無名のプレイヤーほど有効だ。今後、同じ手法を取る企業が増えるかもしれない。

まとめ

LongCat-2.0は、ベンチマーク上はClaude OpusやGPT-5.5の最上位モデルには届かない。だが、MITライセンスのオープンソースモデルとして、フロンティア級に近い性能を格安で使える選択肢が増えたこと自体に意味がある。

そして何より、「中国のフードデリバリー企業が、Nvidiaなしで、匿名で2ヶ月間世界1位を取った」というストーリー自体が、AI業界の地殻変動を象徴している。

関連記事