FlowTune Media

Llama 4の3モデル、結局どれを使えばいいのか — Scout・Maverick・Behemoth選び方

Scout、Maverick、Behemoth。

Metaが2025年4月にリリースしたLlama 4は、3つのモデルで構成されている。問題は、どれを使えばいいのか。そもそもBehemothは使えるのか。10Mトークンのコンテキストウィンドウは本当に実用的なのか。

オープンウェイトという看板は魅力的だが、「自由に使える」と「使いこなせる」の間には距離がある。各モデルのスペック、使い分け、料金、ローカル実行の現実を整理する。

3モデルの全体像

Llama 4は、Mixture-of-Experts(MoE)アーキテクチャを採用した、ネイティブマルチモーダルモデルだ。テキストと画像を統一的に処理するearly fusionで、入力モダリティをシームレスに扱える。

まず、3モデルのスペックを整理しておく。

Llama 4 Scout — アクティブパラメータ17B、エキスパート数16、総パラメータ109B。コンテキストウィンドウは業界最大の10Mトークン。INT4量子化でNVIDIA H100 GPU 1枚に載る。

Llama 4 Maverick — アクティブパラメータ17B、エキスパート数128、総パラメータ400B。コンテキストウィンドウは1Mトークン。H100 DGX 1台で動作可能。MoEレイヤーとdenseレイヤーが交互に配置され、半分のレイヤーでエキスパートが適用される設計。

Llama 4 Behemoth — アクティブパラメータ288B、エキスパート数16、総パラメータ約2T(2兆)。Metaが「世界最強クラスのLLM」と位置づけるフラッグシップ。ただし、2026年4月時点でまだ公開されていない。

ここで重要なのは、ScoutとMaverickのアクティブパラメータが同じ17Bだという点だ。違いはエキスパートの数。Scoutは16、Maverickは128。エキスパートが多いほど、入力に対して最適な処理経路を選べるため、回答の質が上がりやすい。ただしモデルサイズも大きくなる。

10Mトークン — 何が変わるのか

Scoutの10Mトークンコンテキストは、現行のLLMでは飛び抜けた数値だ。Claude Opus 4.6の1Mトークンの10倍、GPT-5.4の256Kトークンの約40倍にあたる。

10Mトークンとは、概算で書籍50〜75冊分。大規模コードベースを丸ごと読ませて横断分析する、数百ページの法的文書を一括処理する、といったユースケースが現実的になる。

ただし、10Mトークンの「理論値」と「実用値」にはギャップがある。コンテキストが長くなるほどレイテンシは増加するし、"Lost in the Middle"問題——中間部分の情報が抜け落ちやすい——もまだ完全には解消されていない。MetaはiRoPEアーキテクチャで対処しているが、末端付近で精度低下が見られるという報告もある。

それでも、1M以上のコンテキストが必要な場面では、現状Scoutが唯一の現実的な選択肢だ。

Scout vs Maverick — どう使い分けるか

結論から言えば、用途で分ける。

Scoutを選ぶべき場面: 長大なドキュメントやコードベースの一括分析。リソースが限られた環境でのデプロイ(H100 1枚で動く)。コスト重視のプロダクション利用。推論速度はScoutのほうが速く、約2,600トークン/秒を記録している。

Maverickを選ぶべき場面: 推論精度が最優先のタスク。マルチモーダル入力の高精度処理。コンテキスト1Mトークンで足りるなら、回答品質はMaverickが上。

Scoutは「広く浅く」、Maverickは「狭く深く」。両方必要なら、Scoutで俯瞰してからMaverickで深掘り、というパイプラインを組むのがいい。

Behemothはどこに行ったのか

Behemothは2025年4月の発表時点で「訓練中」とアナウンスされ、当初は2025年夏の公開が見込まれていた。しかし、2025年5月にSiliconAngleが「リリースが秋以降に延期」と報じ、その後も公式な進捗更新はほぼない。

2026年4月現在、Behemothの重みは公開されていない。

Metaはキャンセルを正式に否定しているが、2T規模の訓練がどれだけ困難かは想像に難くない。現時点でBehemothは「teacher model」として機能し、ScoutとMaverickの性能向上にcodistillation(共蒸留)で貢献している。Behemothの価値はすでに他の2モデルに内包されている、とも言える。

ScoutとMaverickが十分に強力なので、Behemothの不在が実務上のボトルネックになる場面は少ないだろう。

ベンチマーク比較 — 2026年のフロンティア争い

2026年4月時点のAIモデル市場は、かつてないほど競争が激化している。主要モデルとの比較を見てみよう。

Maverick(Instruct版)はMMLU 85.6、LiveCodeBenchでGPT-4o超え、MMMUでGemini 2.0 Flash超えと、発表時点ではオープンウェイト最高水準だった。

ただし2026年4月の勢力図は変わっている。GPT-5.4はAIME 2025で100%を達成し数学推論で独走。Claude Opus 4.6はSWE-bench Verified 80.8%でコーディング最強。Gemini 3.1 ProはGoogleエコシステムとの統合で独自の地位を築いている。

Llama 4 Maverickの強みは、「オープンウェイトでこの水準」という点にある。Claude Opus 4.6やGPT-5.4は商用APIでしか使えないが、MaverickはHugging Faceからダウンロードして自前のインフラで動かせる。データを外部に出せない環境では、この差は決定的だ。

一方で、最先端のプロプライエタリモデルと比べると、推論の深さやエージェント的な能力ではまだ差がある。Llama 4は「オープンウェイトのチャンピオン」であって、「全モデルの頂点」ではない。

API利用 — 料金とプロバイダー

Llama 4はオープンウェイトなので、自前でホスティングすればAPI料金は発生しない(インフラコストは別)。ホスティングが面倒なら、複数のプロバイダーがAPIを提供している。

Scoutの料金目安は、入力$0.15/出力$0.50(100万トークンあたり)。Maverickは入力$0.22/出力$0.85程度。プロバイダーによって変動するが、DeepInfraTogether AIが最安値圏にある。

比較として、Claude Opus 4.6のAPI料金は入力$15/出力$75(100万トークンあたり)。GPT-5.4も同等の価格帯だ。Llama 4のAPI料金はこれらの50〜100分の1。桁が違う。

大量リクエストを処理するプロダクション環境では、この価格差が効いてくる。

ローカル実行 — Ollamaで動かす

Llama 4のもう一つの魅力は、ローカルで動かせること。Ollamaを使えば、以下のコマンドで即座に起動できる。

ollama run llama4:scout
ollama run llama4:maverick

Scoutは量子化すればH100 1枚、あるいはApple Silicon Mac(M3 Max/M4 Max以上、64GB RAM推奨)でも動作する。Maverickは要求スペックが高く、最低でもH100 DGX相当の環境が必要だ。

Ollama v0.8(2025年5月リリース)でストリーミング応答、ツールコール対応、JSON構造の精度向上が入り、ローカル実行の実用性が大幅に上がった。Apple Silicon Macでは自動でMetal GPU加速がかかるので、追加設定なしでそこそこの速度が出る。

ただし、フルの10Mトークンコンテキストをローカルで活用するのは現実的ではない。メモリ消費量が膨大になるため、ローカル実行では実質的にコンテキスト長を制限して使うことになる。長大なコンテキストが必要ならクラウドAPIを使うべきだ。

オープンウェイトの意義と制限

「オープンウェイト」は「オープンソース」とは違う。Llama 4はモデルの重みが公開されているが、Metaのコミュニティライセンスの下で配布されている。月間アクティブユーザーが7億人を超えるサービスに組み込む場合はMetaとの個別ライセンスが必要だ(実質、超大手以外は関係ない制限だが)。

オープンウェイトの最大のメリットは3つ。

まず、データの主権。APIを叩く場合、入力データは外部サーバーに送信される。自前ホスティングなら、データは一切外に出ない。医療、金融、法務など、データの取り扱いに厳格な業界では、これだけでLlama 4を選ぶ理由になる。

次に、カスタマイズ。ファインチューニング、LoRA、量子化など、モデルを自分の用途に最適化できる。プロプライエタリモデルではこの自由度はない。

最後に、コスト構造の予測可能性。API課金は使えば使うほど膨らむが、自前ホスティングならインフラの固定費だけで済む。利用量が多い組織ほど、自前ホスティングのROIが改善する。

制限もある。最先端のプロプライエタリモデルに比べると、推論品質はやや劣る。Metaのリソースで訓練されたモデルとはいえ、AnthropicやOpenAIがRLHFや後訓練に投じている工数とは差がある。また、自前ホスティングにはGPUの調達・運用コストが伴う。「無料で使える」と「安く運用できる」は別の話だ。

正直な評価

Llama 4は、オープンウェイトLLMの到達点を大幅に引き上げた。ScoutとMaverickの組み合わせは、コスト対性能比で現時点最強のオプションだと言っていい。

特にScoutの10Mトークンコンテキストは、長文処理の民主化という点で歴史的な意味がある。これまでは商用APIの高額プランでしか得られなかったコンテキスト長が、オープンウェイトで手に入る。

一方で、Behemothの不在は気になる。発表から1年が経過して音沙汰なしというのは、期待値のコントロールに失敗した感が否めない。ScoutとMaverickの実力を考えれば「Behemothなしでも十分」とも言えるが、「GPT-4.5超え」を謳ったモデルが出てこないのは、Metaの信頼性にとってマイナスだ。

また、初期リリース時のベンチマーク結果に対して「チェリーピッキングではないか」という批判もあった。実際、コミュニティによる独自検証では、公式発表ほどの差がつかないケースも報告されている。ベンチマークの数字だけでなく、実タスクでの体感を重視すべきだろう。

結局、Llama 4をどう評価するかは「何と比べるか」で変わる。GPT-5.4やClaude Opus 4.6と比べれば「まだ届かない」。オープンウェイトの中で比べれば「圧倒的」。自前インフラでの運用を前提にすれば「コスパ最強」。

使うなら、まずScoutから試すのがいい。Ollamaで10分あれば動く。そこから必要に応じてMaverickに上げる。Behemothは——出たら考えればいい。

関連記事