Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか

Meta Llama 5

先週、Metaの旗色を「クローズド」と書いた記事を読んだ人は、そろそろ混乱しているかもしれない。

Meta Superintelligence Labs（MSL）が4月8日に発表したMuse Sparkは、Metaにとって初のクローズドモデルだった。オープンウェイトの象徴だったMetaが、ついにAnthropicやOpenAIと同じ土俵に立つ——そう報じられた、その数日後。

同じ週の4月8日、Mark ZuckerbergはLlama 5を発表した。600Bパラメータ、5Mトークンのコンテキスト、そしてApache風の緩いライセンスでHugging Faceに即日公開。Muse Sparkの衝撃が覚めやらぬうちに、Metaは「こっちはこっちで続けます」とでも言いたげに、もう一枚カードを切ってきた。

Llama 5は、単なるLlama 4のマイナーバージョンアップではない。数字の上でも、戦略の上でも、別物だ。

Muse SparkとLlama 5は別ラインだった

まずここで整理しておきたい。Muse SparkはMSLというMeta内の新組織が作ったクローズドモデル。Llama 5は、これまで通りLlamaチームが担当したオープンウェイトモデルだ。

つまり、Metaは2本のラインを並走させると宣言した。

Llama系列：オープンウェイト、重みがHugging Faceで公開、誰でもダウンロードできる
Muse系列：クローズド、meta.aiとMeta AIアプリ経由のみ、APIで金を取る

一見矛盾しているが、ビジネスモデル的には一貫している。Metaの本業は広告だ。推論APIで稼ぐ必要がないから、モデルそのものを無料で配って、自社製品（Instagram、WhatsApp、Facebook、Ray-Ban AIグラス）の体験を強化するほうが全体利益は大きい。一方で、「最先端の自社開発能力があること」を示すためには、オープンに出せない実験的モデルも必要になる。

Llama 5は「Metaの本気のオープンソース路線はまだ生きている」というサインだ。そしてその本気度が、数字にそのまま表れている。

600Bパラメータ、5Mコンテキスト — 数字の意味

Llama 4のフラッグシップだったMaverickが17Bアクティブ / 400B総パラメータ、コンテキスト1Mトークン。Llama 5はここを一気に書き換える。

総パラメータ：600B超（Metaはアクティブパラメータ数を明示していないが、MoE構造は継承）
コンテキストウィンドウ：5Mトークン（書籍25〜40冊分）
ライセンス：商用利用可、Metaコミュニティライセンスからさらに緩和
ダウンロード：Hugging Face上で即日提供

5Mトークンという数字は、Llama 4 Scoutの10Mからは後退しているが、「実用的に回せるコンテキスト」としては過去最大級だ。Scoutの10Mはメモリとレイテンシの壁で事実上ベンチマーク用になっていた面がある。Llama 5の5Mは、ScoutとMaverickの中間で、「広く読ませて深く考えさせる」バランスに寄せてきた印象がある。

Claude Opus 4.6の1Mコンテキストの5倍、GPT-6の2Mの2.5倍。しかもこれが、自分の手元で動かせる。医療や法務、金融など、データを外に出せない業界にとっては、この一点だけで導入検討の対象になる。

System 2 thinking — 「遅くて正しい思考」をどう実装したのか

スペック以上に注目されているのが、Llama 5が新しく導入した2つの仕組みだ。

1つ目がSystem 2 thinking。心理学者ダニエル・カーネマンの『ファスト&スロー』で有名になった用語で、直感的な高速処理（System 1）に対して、時間をかけた分析的な思考を指す。Llama 5は、複雑な多段階問題に対してこのSystem 2モードで処理するよう設計されている。

要するに、「早く返すけど雑」と「遅いけど正しい」を使い分けるLLM。発想自体はo3やClaude Opus 4.6のextended thinkingと似ている。違いは、それがオープンウェイトで手に入ること。モデル内部の思考プロセスをログで追える、ファインチューニングで自分のドメインに最適化できる——これがクローズドモデルとの決定的な差になる。

Recursive Self-Improvement — モデルが自分の弱点を埋める

2つ目がRecursive Self-Improvement（再帰的自己改善）。名前だけ見るとSF的な響きだが、Metaが説明している仕組みは地に足がついている。

モデルが自身の推論の穴を特定し、そのギャップを埋めるための高品質な合成データを自分で生成する。そのデータを使って内部のロジックを再調整する——これを反復する。

人間のデータセットが枯渇しつつある現在、合成データはもはや避けて通れない。Llama 5はこの合成データ生成を「モデル外の別システム」ではなく、モデル自身の学習ループの一部として取り込んだ。外部アノテーターに頼らずに弱点を補強できる設計と言っていい。

ただ、正直このあたりの主張は慎重に受け止めた方がいい。「自己改善」という言葉は響きが強すぎて、実際には「合成データ生成パイプラインの内製化」くらいの意味合いかもしれない。本当に推論の質が再帰的に積み上がるのか、発表から時間が経ってコミュニティの検証結果が出揃うまでは、判断を保留しておきたい。

GPT-6とClaude Mythosにどう挑むのか

Llama 5のリリースは、明らかに今週の他の2大発表を意識している。

OpenAIは4月14日にGPT-6を投入、2Mトークンコンテキストと$2.50/Mトークンという破壊的な価格を打ち出した。Anthropicは4月7日にClaude Mythosをプレビューしたが、「あまりに強すぎるので一般公開しない」という異例の判断を下している。

商用モデルが「強さで殴る」路線を強めるなか、Llama 5のポジショニングは明快だ。

GPT-6に対して：「お前のAPIを使わずに、自分のGPUで同じレベルのモデルを動かせる」
Claude Mythosに対して：「一般公開されない最強モデルなんか待たず、今すぐ手元に置ける600Bがここにある」
DeepSeek V4に対して：「Huaweiのチップに縛られない汎用GPUで動く、西側のオープンウェイト」

特に3つ目が地味に効く。DeepSeek V4は中国製GPUへの最適化で話題になっているが、グローバル市場でNvidia H100/B200を前提にしている現場には馴染まない。Llama 5はNvidia前提で設計されており、既存のインフラでそのまま動く。

日本の開発者にとって何が変わるか

ここまで読んで「すごいのはわかった。でも自分の環境で動かせるのか」と思った人が大半のはずだ。正直に言うと、600Bパラメータを個人のマシンでフルに動かすのは現実的ではない。量子化を挟んでも、最低でもH100×8枚クラスのGPUノードが必要になる。

ただ、使い道は3つある。

1. クラウドAPI経由で使う

Together AI、DeepInfra、Fireworksあたりが数日以内にLlama 5のホスティングAPIを提供する見込みだ。Llama 4 Maverickのときはリリースから48時間以内に主要プロバイダーが対応したので、今回も同じスピード感だろう。料金はLlama 4の経験則から、入力$0.50〜$1.00 / 出力$2.00〜$4.00（100万トークンあたり）あたりに落ち着くと予想する。GPT-6の$2.50 / $12と比べれば、あきらかに桁が違う。

2. 量子化版をローカルで動かす

Ollamaやllama.cppコミュニティは発表直後からGGUF変換を始めているはず。Q4量子化あたりまで落とせば、Apple Silicon Macの128GB/192GBモデルでも小規模コンテキストで動かせる可能性がある。5Mコンテキストはローカルでは諦めて、32K〜128Kで回すのが現実的な落とし所だ。

3. 自社プライベートクラウドへのデプロイ

データを一切外に出せない業界——医療、金融、法務、官公庁——にとっては、Llama 5は文字通り「買わずに済むAI」になる。これまでGPT-5.4やClaude Opus 4.6を使うために顧客情報を外部APIに送らざるをえなかった領域で、オンプレミスのLlama 5で置き換える動きが加速するだろう。

気になる点

称賛ばかりではない。リリース当日の使用感として、いくつか気になる指摘も出ている。

5Mコンテキストを長く使うと、中盤の情報を拾い損ねる"Lost in the Middle"問題がLlama 4よりはマシとはいえ依然として残っている。ベンチマーク上の10Mはともかく、現実の対話で安定して引き出せるのは2M〜3Mあたり、という初期報告もある。

System 2 thinkingモードは、クエリに対して平均10〜30秒の追加待ち時間が発生する。推論APIとしては「考え込む時間」を許容できるかどうかで評価が分かれるだろう。チャットUIに組み込むなら、ユーザーにモードを選ばせるか、簡単な質問と複雑な質問を振り分けるルーターが必要になる。

そして肝心のベンチマーク。Metaは自社発表でSWE-bench Verified 79.2%、MMLU 88.5%、AIME 2025で93%という数字を出しているが、こういう発表時の数字は「実際に触ったコミュニティ」の独自検証で目減りするのが常だ。Llama 4のときもそうだった。

まとめ — Metaが再び開いたことの重み

2026年4月は、いまのところAI業界史に残る1週間になりそうな気配がある。GPT-6、Claude Mythos、Llama 5が連続で出てきた。この中でLlama 5がいちばん「地味」に見えるかもしれない。数字の派手さではGPT-6やMythosに届かないし、話題性でいえばMuse Sparkの方が上かもしれない。

それでも、Llama 5は重要だ。

なぜなら、これは「オープンウェイトのフロンティアがまだ前進している」というシグナルだから。DeepSeekやQwenが中国側からオープンの旗を掲げていた一方で、「西側の本命」であるMetaが数ヶ月間Muse Sparkに寄り道していた。Llama 5の登場で、オープンモデル陣営はもう一度勢いを取り戻した。

ChatGPT・Claude・GPT-6しか触らない人にとっては、Llama 5は当面「裏方」に見えるだろう。だが、医療系スタートアップや法律事務所、地方自治体のシステム、自社業務用の社内エージェント——「APIに送れないデータ」を扱うすべての現場で、Llama 5は静かに空気を変えていくはずだ。

Meta Llama 5は公式ブログとHugging Face上のモデルカードで公開されている。まずはクラウドAPIで触って、感触を掴んでおくくらいの動きはしておいて損はない。

Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか

Muse SparkとLlama 5は別ラインだった

600Bパラメータ、5Mコンテキスト — 数字の意味

System 2 thinking — 「遅くて正しい思考」をどう実装したのか

Recursive Self-Improvement — モデルが自分の弱点を埋める

GPT-6とClaude Mythosにどう挑むのか

日本の開発者にとって何が変わるか

気になる点

まとめ — Metaが再び開いたことの重み

関連記事

Llama 4の3モデル、結局どれを使えばいいのか — Scout・Maverick・Behemoth選び方

DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話