Llama 4の3モデル、結局どれを使えばいいのか — Scout・Maverick・Behemoth選び方
Scout、Maverick、Behemoth。
Metaが2025年4月にリリースしたLlama 4は、3つのモデルで構成されている。問題は、どれを使えばいいのか。そもそもBehemothは使えるのか。10Mトークンのコンテキストウィンドウは本当に実用的なのか。
オープンウェイトという看板は魅力的だが、「自由に使える」と「使いこなせる」の間には距離がある。各モデルのスペック、使い分け、料金、ローカル実行の現実を整理する。
3モデルの全体像
Llama 4は、Mixture-of-Experts(MoE)アーキテクチャを採用した、ネイティブマルチモーダルモデルだ。テキストと画像を統一的に処理するearly fusionで、入力モダリティをシームレスに扱える。
まず、3モデルのスペックを整理しておく。
Llama 4 Scout — アクティブパラメータ17B、エキスパート数16、総パラメータ109B。コンテキストウィンドウは業界最大の10Mトークン。INT4量子化でNVIDIA H100 GPU 1枚に載る。
Llama 4 Maverick — アクティブパラメータ17B、エキスパート数128、総パラメータ400B。コンテキストウィンドウは1Mトークン。H100 DGX 1台で動作可能。MoEレイヤーとdenseレイヤーが交互に配置され、半分のレイヤーでエキスパートが適用される設計。
Llama 4 Behemoth — アクティブパラメータ288B、エキスパート数16、総パラメータ約2T(2兆)。Metaが「世界最強クラスのLLM」と位置づけるフラッグシップ。ただし、2026年4月時点でまだ公開されていない。
ここで重要なのは、ScoutとMaverickのアクティブパラメータが同じ17Bだという点だ。違いはエキスパートの数。Scoutは16、Maverickは128。エキスパートが多いほど、入力に対して最適な処理経路を選べるため、回答の質が上がりやすい。ただしモデルサイズも大きくなる。
10Mトークン — 何が変わるのか
Scoutの10Mトークンコンテキストは、現行のLLMでは飛び抜けた数値だ。Claude Opus 4.6の1Mトークンの10倍、GPT-5.4の256Kトークンの約40倍にあたる。
10Mトークンとは、概算で書籍50〜75冊分。大規模コードベースを丸ごと読ませて横断分析する、数百ページの法的文書を一括処理する、といったユースケースが現実的になる。
ただし、10Mトークンの「理論値」と「実用値」にはギャップがある。コンテキストが長くなるほどレイテンシは増加するし、"Lost in the Middle"問題——中間部分の情報が抜け落ちやすい——もまだ完全には解消されていない。MetaはiRoPEアーキテクチャで対処しているが、末端付近で精度低下が見られるという報告もある。
それでも、1M以上のコンテキストが必要な場面では、現状Scoutが唯一の現実的な選択肢だ。
Scout vs Maverick — どう使い分けるか
結論から言えば、用途で分ける。
Scoutを選ぶべき場面: 長大なドキュメントやコードベースの一括分析。リソースが限られた環境でのデプロイ(H100 1枚で動く)。コスト重視のプロダクション利用。推論速度はScoutのほうが速く、約2,600トークン/秒を記録している。
Maverickを選ぶべき場面: 推論精度が最優先のタスク。マルチモーダル入力の高精度処理。コンテキスト1Mトークンで足りるなら、回答品質はMaverickが上。
Scoutは「広く浅く」、Maverickは「狭く深く」。両方必要なら、Scoutで俯瞰してからMaverickで深掘り、というパイプラインを組むのがいい。
Behemothはどこに行ったのか
Behemothは2025年4月の発表時点で「訓練中」とアナウンスされ、当初は2025年夏の公開が見込まれていた。しかし、2025年5月にSiliconAngleが「リリースが秋以降に延期」と報じ、その後も公式な進捗更新はほぼない。
2026年4月現在、Behemothの重みは公開されていない。
Metaはキャンセルを正式に否定しているが、2T規模の訓練がどれだけ困難かは想像に難くない。現時点でBehemothは「teacher model」として機能し、ScoutとMaverickの性能向上にcodistillation(共蒸留)で貢献している。Behemothの価値はすでに他の2モデルに内包されている、とも言える。
ScoutとMaverickが十分に強力なので、Behemothの不在が実務上のボトルネックになる場面は少ないだろう。
ベンチマーク比較 — 2026年のフロンティア争い
2026年4月時点のAIモデル市場は、かつてないほど競争が激化している。主要モデルとの比較を見てみよう。
Maverick(Instruct版)はMMLU 85.6、LiveCodeBenchでGPT-4o超え、MMMUでGemini 2.0 Flash超えと、発表時点ではオープンウェイト最高水準だった。
ただし2026年4月の勢力図は変わっている。GPT-5.4はAIME 2025で100%を達成し数学推論で独走。Claude Opus 4.6はSWE-bench Verified 80.8%でコーディング最強。Gemini 3.1 ProはGoogleエコシステムとの統合で独自の地位を築いている。
Llama 4 Maverickの強みは、「オープンウェイトでこの水準」という点にある。Claude Opus 4.6やGPT-5.4は商用APIでしか使えないが、MaverickはHugging Faceからダウンロードして自前のインフラで動かせる。データを外部に出せない環境では、この差は決定的だ。
一方で、最先端のプロプライエタリモデルと比べると、推論の深さやエージェント的な能力ではまだ差がある。Llama 4は「オープンウェイトのチャンピオン」であって、「全モデルの頂点」ではない。
API利用 — 料金とプロバイダー
Llama 4はオープンウェイトなので、自前でホスティングすればAPI料金は発生しない(インフラコストは別)。ホスティングが面倒なら、複数のプロバイダーがAPIを提供している。
Scoutの料金目安は、入力$0.15/出力$0.50(100万トークンあたり)。Maverickは入力$0.22/出力$0.85程度。プロバイダーによって変動するが、DeepInfraやTogether AIが最安値圏にある。
比較として、Claude Opus 4.6のAPI料金は入力$15/出力$75(100万トークンあたり)。GPT-5.4も同等の価格帯だ。Llama 4のAPI料金はこれらの50〜100分の1。桁が違う。
大量リクエストを処理するプロダクション環境では、この価格差が効いてくる。
ローカル実行 — Ollamaで動かす
Llama 4のもう一つの魅力は、ローカルで動かせること。Ollamaを使えば、以下のコマンドで即座に起動できる。
ollama run llama4:scout
ollama run llama4:maverick
Scoutは量子化すればH100 1枚、あるいはApple Silicon Mac(M3 Max/M4 Max以上、64GB RAM推奨)でも動作する。Maverickは要求スペックが高く、最低でもH100 DGX相当の環境が必要だ。
Ollama v0.8(2025年5月リリース)でストリーミング応答、ツールコール対応、JSON構造の精度向上が入り、ローカル実行の実用性が大幅に上がった。Apple Silicon Macでは自動でMetal GPU加速がかかるので、追加設定なしでそこそこの速度が出る。
ただし、フルの10Mトークンコンテキストをローカルで活用するのは現実的ではない。メモリ消費量が膨大になるため、ローカル実行では実質的にコンテキスト長を制限して使うことになる。長大なコンテキストが必要ならクラウドAPIを使うべきだ。
オープンウェイトの意義と制限
「オープンウェイト」は「オープンソース」とは違う。Llama 4はモデルの重みが公開されているが、Metaのコミュニティライセンスの下で配布されている。月間アクティブユーザーが7億人を超えるサービスに組み込む場合はMetaとの個別ライセンスが必要だ(実質、超大手以外は関係ない制限だが)。
オープンウェイトの最大のメリットは3つ。
まず、データの主権。APIを叩く場合、入力データは外部サーバーに送信される。自前ホスティングなら、データは一切外に出ない。医療、金融、法務など、データの取り扱いに厳格な業界では、これだけでLlama 4を選ぶ理由になる。
次に、カスタマイズ。ファインチューニング、LoRA、量子化など、モデルを自分の用途に最適化できる。プロプライエタリモデルではこの自由度はない。
最後に、コスト構造の予測可能性。API課金は使えば使うほど膨らむが、自前ホスティングならインフラの固定費だけで済む。利用量が多い組織ほど、自前ホスティングのROIが改善する。
制限もある。最先端のプロプライエタリモデルに比べると、推論品質はやや劣る。Metaのリソースで訓練されたモデルとはいえ、AnthropicやOpenAIがRLHFや後訓練に投じている工数とは差がある。また、自前ホスティングにはGPUの調達・運用コストが伴う。「無料で使える」と「安く運用できる」は別の話だ。
正直な評価
Llama 4は、オープンウェイトLLMの到達点を大幅に引き上げた。ScoutとMaverickの組み合わせは、コスト対性能比で現時点最強のオプションだと言っていい。
特にScoutの10Mトークンコンテキストは、長文処理の民主化という点で歴史的な意味がある。これまでは商用APIの高額プランでしか得られなかったコンテキスト長が、オープンウェイトで手に入る。
一方で、Behemothの不在は気になる。発表から1年が経過して音沙汰なしというのは、期待値のコントロールに失敗した感が否めない。ScoutとMaverickの実力を考えれば「Behemothなしでも十分」とも言えるが、「GPT-4.5超え」を謳ったモデルが出てこないのは、Metaの信頼性にとってマイナスだ。
また、初期リリース時のベンチマーク結果に対して「チェリーピッキングではないか」という批判もあった。実際、コミュニティによる独自検証では、公式発表ほどの差がつかないケースも報告されている。ベンチマークの数字だけでなく、実タスクでの体感を重視すべきだろう。
結局、Llama 4をどう評価するかは「何と比べるか」で変わる。GPT-5.4やClaude Opus 4.6と比べれば「まだ届かない」。オープンウェイトの中で比べれば「圧倒的」。自前インフラでの運用を前提にすれば「コスパ最強」。
使うなら、まずScoutから試すのがいい。Ollamaで10分あれば動く。そこから必要に応じてMaverickに上げる。Behemothは——出たら考えればいい。
関連記事
DeepSeek V4が示す新しい勢力図 — 1兆パラメータ、Huaweiチップ、$0.30/Mトークンの衝撃
!DeepSeek V4(/images/posts/deepseek-v4-multimodal.jpg) DeepSeekがまた市場を揺らす。今度は1兆パラメータだ。 2026年4月、中国のAIスタートアップDeepSeek(https://www.deepseek.com/)が次世代モデル「DeepSeek
Gemma 4 — Googleが「無料で使えるAI」に本気を出してきた理由
「オープンモデルは所詮、クローズドの劣化版でしょ」。 そう思っている人がまだ多いのは知っている。実際、1年前ならその認識で間違いなかった。GPT-4やClaudeに匹敵するオープンモデルなんて存在しなかったし、商用利用しようとすればライセンスの制約に頭を抱えることになった。 しかし2026年4月、Googleが出
Claude Opus 4.6を1ヶ月使った所感 — 100万トークンとエージェントチームの実力
!Claude Opus 4.6(/images/posts/claude-opus-4-6-anthropic.png) Anthropicが2月5日にリリースしたClaude Opus 4.6を、約2ヶ月間、主に開発業務とリサーチで使い込んできた。率直に言って、コーディング用途ではこれが現時点のベストだと思って