Muse Sparkの数日後、Metaが再び開いた — Llama 5は何をひっくり返したのか
先週、Metaの旗色を「クローズド」と書いた記事を読んだ人は、そろそろ混乱しているかもしれない。
Meta Superintelligence Labs(MSL)が4月8日に発表したMuse Sparkは、Metaにとって初のクローズドモデルだった。オープンウェイトの象徴だったMetaが、ついにAnthropicやOpenAIと同じ土俵に立つ——そう報じられた、その数日後。
同じ週の4月8日、Mark ZuckerbergはLlama 5を発表した。600Bパラメータ、5Mトークンのコンテキスト、そしてApache風の緩いライセンスでHugging Faceに即日公開。Muse Sparkの衝撃が覚めやらぬうちに、Metaは「こっちはこっちで続けます」とでも言いたげに、もう一枚カードを切ってきた。
Llama 5は、単なるLlama 4のマイナーバージョンアップではない。数字の上でも、戦略の上でも、別物だ。
Muse SparkとLlama 5は別ラインだった
まずここで整理しておきたい。Muse SparkはMSLというMeta内の新組織が作ったクローズドモデル。Llama 5は、これまで通りLlamaチームが担当したオープンウェイトモデルだ。
つまり、Metaは2本のラインを並走させると宣言した。
- Llama系列:オープンウェイト、重みがHugging Faceで公開、誰でもダウンロードできる
- Muse系列:クローズド、meta.aiとMeta AIアプリ経由のみ、APIで金を取る
一見矛盾しているが、ビジネスモデル的には一貫している。Metaの本業は広告だ。推論APIで稼ぐ必要がないから、モデルそのものを無料で配って、自社製品(Instagram、WhatsApp、Facebook、Ray-Ban AIグラス)の体験を強化するほうが全体利益は大きい。一方で、「最先端の自社開発能力があること」を示すためには、オープンに出せない実験的モデルも必要になる。
Llama 5は「Metaの本気のオープンソース路線はまだ生きている」というサインだ。そしてその本気度が、数字にそのまま表れている。
600Bパラメータ、5Mコンテキスト — 数字の意味
Llama 4のフラッグシップだったMaverickが17Bアクティブ / 400B総パラメータ、コンテキスト1Mトークン。Llama 5はここを一気に書き換える。
- 総パラメータ:600B超(Metaはアクティブパラメータ数を明示していないが、MoE構造は継承)
- コンテキストウィンドウ:5Mトークン(書籍25〜40冊分)
- ライセンス:商用利用可、Metaコミュニティライセンスからさらに緩和
- ダウンロード:Hugging Face上で即日提供
5Mトークンという数字は、Llama 4 Scoutの10Mからは後退しているが、「実用的に回せるコンテキスト」としては過去最大級だ。Scoutの10Mはメモリとレイテンシの壁で事実上ベンチマーク用になっていた面がある。Llama 5の5Mは、ScoutとMaverickの中間で、「広く読ませて深く考えさせる」バランスに寄せてきた印象がある。
Claude Opus 4.6の1Mコンテキストの5倍、GPT-6の2Mの2.5倍。しかもこれが、自分の手元で動かせる。医療や法務、金融など、データを外に出せない業界にとっては、この一点だけで導入検討の対象になる。
System 2 thinking — 「遅くて正しい思考」をどう実装したのか
スペック以上に注目されているのが、Llama 5が新しく導入した2つの仕組みだ。
1つ目がSystem 2 thinking。心理学者ダニエル・カーネマンの『ファスト&スロー』で有名になった用語で、直感的な高速処理(System 1)に対して、時間をかけた分析的な思考を指す。Llama 5は、複雑な多段階問題に対してこのSystem 2モードで処理するよう設計されている。
要するに、「早く返すけど雑」と「遅いけど正しい」を使い分けるLLM。発想自体はo3やClaude Opus 4.6のextended thinkingと似ている。違いは、それがオープンウェイトで手に入ること。モデル内部の思考プロセスをログで追える、ファインチューニングで自分のドメインに最適化できる——これがクローズドモデルとの決定的な差になる。
Recursive Self-Improvement — モデルが自分の弱点を埋める
2つ目がRecursive Self-Improvement(再帰的自己改善)。名前だけ見るとSF的な響きだが、Metaが説明している仕組みは地に足がついている。
モデルが自身の推論の穴を特定し、そのギャップを埋めるための高品質な合成データを自分で生成する。そのデータを使って内部のロジックを再調整する——これを反復する。
人間のデータセットが枯渇しつつある現在、合成データはもはや避けて通れない。Llama 5はこの合成データ生成を「モデル外の別システム」ではなく、モデル自身の学習ループの一部として取り込んだ。外部アノテーターに頼らずに弱点を補強できる設計と言っていい。
ただ、正直このあたりの主張は慎重に受け止めた方がいい。「自己改善」という言葉は響きが強すぎて、実際には「合成データ生成パイプラインの内製化」くらいの意味合いかもしれない。本当に推論の質が再帰的に積み上がるのか、発表から時間が経ってコミュニティの検証結果が出揃うまでは、判断を保留しておきたい。
GPT-6とClaude Mythosにどう挑むのか
Llama 5のリリースは、明らかに今週の他の2大発表を意識している。
OpenAIは4月14日にGPT-6を投入、2Mトークンコンテキストと$2.50/Mトークンという破壊的な価格を打ち出した。Anthropicは4月7日にClaude Mythosをプレビューしたが、「あまりに強すぎるので一般公開しない」という異例の判断を下している。
商用モデルが「強さで殴る」路線を強めるなか、Llama 5のポジショニングは明快だ。
- GPT-6に対して:「お前のAPIを使わずに、自分のGPUで同じレベルのモデルを動かせる」
- Claude Mythosに対して:「一般公開されない最強モデルなんか待たず、今すぐ手元に置ける600Bがここにある」
- DeepSeek V4に対して:「Huaweiのチップに縛られない汎用GPUで動く、西側のオープンウェイト」
特に3つ目が地味に効く。DeepSeek V4は中国製GPUへの最適化で話題になっているが、グローバル市場でNvidia H100/B200を前提にしている現場には馴染まない。Llama 5はNvidia前提で設計されており、既存のインフラでそのまま動く。
日本の開発者にとって何が変わるか
ここまで読んで「すごいのはわかった。でも自分の環境で動かせるのか」と思った人が大半のはずだ。正直に言うと、600Bパラメータを個人のマシンでフルに動かすのは現実的ではない。量子化を挟んでも、最低でもH100×8枚クラスのGPUノードが必要になる。
ただ、使い道は3つある。
1. クラウドAPI経由で使う
Together AI、DeepInfra、Fireworksあたりが数日以内にLlama 5のホスティングAPIを提供する見込みだ。Llama 4 Maverickのときはリリースから48時間以内に主要プロバイダーが対応したので、今回も同じスピード感だろう。料金はLlama 4の経験則から、入力$0.50〜$1.00 / 出力$2.00〜$4.00(100万トークンあたり)あたりに落ち着くと予想する。GPT-6の$2.50 / $12と比べれば、あきらかに桁が違う。
2. 量子化版をローカルで動かす
Ollamaやllama.cppコミュニティは発表直後からGGUF変換を始めているはず。Q4量子化あたりまで落とせば、Apple Silicon Macの128GB/192GBモデルでも小規模コンテキストで動かせる可能性がある。5Mコンテキストはローカルでは諦めて、32K〜128Kで回すのが現実的な落とし所だ。
3. 自社プライベートクラウドへのデプロイ
データを一切外に出せない業界——医療、金融、法務、官公庁——にとっては、Llama 5は文字通り「買わずに済むAI」になる。これまでGPT-5.4やClaude Opus 4.6を使うために顧客情報を外部APIに送らざるをえなかった領域で、オンプレミスのLlama 5で置き換える動きが加速するだろう。
気になる点
称賛ばかりではない。リリース当日の使用感として、いくつか気になる指摘も出ている。
5Mコンテキストを長く使うと、中盤の情報を拾い損ねる"Lost in the Middle"問題がLlama 4よりはマシとはいえ依然として残っている。ベンチマーク上の10Mはともかく、現実の対話で安定して引き出せるのは2M〜3Mあたり、という初期報告もある。
System 2 thinkingモードは、クエリに対して平均10〜30秒の追加待ち時間が発生する。推論APIとしては「考え込む時間」を許容できるかどうかで評価が分かれるだろう。チャットUIに組み込むなら、ユーザーにモードを選ばせるか、簡単な質問と複雑な質問を振り分けるルーターが必要になる。
そして肝心のベンチマーク。Metaは自社発表でSWE-bench Verified 79.2%、MMLU 88.5%、AIME 2025で93%という数字を出しているが、こういう発表時の数字は「実際に触ったコミュニティ」の独自検証で目減りするのが常だ。Llama 4のときもそうだった。
まとめ — Metaが再び開いたことの重み
2026年4月は、いまのところAI業界史に残る1週間になりそうな気配がある。GPT-6、Claude Mythos、Llama 5が連続で出てきた。この中でLlama 5がいちばん「地味」に見えるかもしれない。数字の派手さではGPT-6やMythosに届かないし、話題性でいえばMuse Sparkの方が上かもしれない。
それでも、Llama 5は重要だ。
なぜなら、これは「オープンウェイトのフロンティアがまだ前進している」というシグナルだから。DeepSeekやQwenが中国側からオープンの旗を掲げていた一方で、「西側の本命」であるMetaが数ヶ月間Muse Sparkに寄り道していた。Llama 5の登場で、オープンモデル陣営はもう一度勢いを取り戻した。
ChatGPT・Claude・GPT-6しか触らない人にとっては、Llama 5は当面「裏方」に見えるだろう。だが、医療系スタートアップや法律事務所、地方自治体のシステム、自社業務用の社内エージェント——「APIに送れないデータ」を扱うすべての現場で、Llama 5は静かに空気を変えていくはずだ。
Meta Llama 5は公式ブログとHugging Face上のモデルカードで公開されている。まずはクラウドAPIで触って、感触を掴んでおくくらいの動きはしておいて損はない。
関連記事
Llama 4の3モデル、結局どれを使えばいいのか — Scout・Maverick・Behemoth選び方
Meta Llama 4のScout・Maverick・Behemothの使い分けを解説。10Mトークンコンテキスト、API料金、ローカル実行方法がわかる
GPT-6 公開 — 価格据え置きで200万トークン、そしてSoraを飲み込んだ
OpenAIが2026年4月10日に公開したGPT-6を解説。2Mコンテキスト、System-1/2の二層推論、ネイティブ動画生成、価格据え置きの戦略、GPT-5.4やClaude Opus 4.6との差をまとめる。
家にある古いパソコンを3台つなげば、大きなAIモデルが動く — mesh-llmの仕組み
Jack Dorsey率いるBlockのエンジニアが公開したOSSプロジェクトmesh-llmを解説。家のPCやMacのGPUをピアツーピアで束ね、単独では動かせない大規模モデルを分散実行する仕組みと使い所。