Grok 4.20 — 「4つの頭脳が議論してから答える」AIは、ハルシネーションを終わらせるか
AIモデルは大きくすれば賢くなる。パラメータを増やし、学習データを積み上げ、GPUを山ほど並べれば性能は上がる——この「スケーリング則」が業界の常識だった。
Grok 4.20は、その前提に真正面から疑問を投げかけるモデルである。
2026年2月17日にプレビュー公開、3月に正式リリースされたxAIの最新モデルは、単体の巨大モデルではない。4つの専門エージェント——Grok、Harper、Benjamin、Lucasと名付けられた——が並列で思考し、議論し、合意を形成してから回答を返す。マルチエージェントシステムだ。
これは単なるアーキテクチャの工夫ではない。AIの信頼性に対する根本的なアプローチの転換だと筆者は見ている。
「合議」がもたらすもの
なぜ複数のエージェントに議論させるのか。答えは単純で、人間と同じ理屈だ。一人の専門家の意見より、複数の専門家が議論した結論のほうが信頼できる。
Grok 4.20の4エージェントは、それぞれ異なる専門領域と推論パターンを持つ。ユーザーからの質問を受け取ると、4つのエージェントが並列に処理を開始し、互いの推論を照合して矛盾を検出する。単一モデルの「もっともらしいが間違っている」回答——いわゆるハルシネーション——を、チーム内の相互チェックで抑え込む設計だ。
その成果はベンチマークに明確に表れている。Artificial Analysisが実施するOmniscience(全知)テストで、Grok 4.20は78%の非ハルシネーション率を記録した。これは現存するすべてのAIモデルの中で最高値だ。GPT-5.4やClaude Opus 4.6を含む競合モデルを上回っている。
ただし78%という数字を冷静に見てほしい。裏を返せば、5回に1回は事実と異なることを言う。「最もマシ」であることと「信頼できる」ことは違う。それでも、業界全体がハルシネーション率の改善に苦しむ中で、マルチエージェント合議というアプローチが有効だと実証したことの意味は大きい。
SuperGrok Heavy — 16エージェントの極致
4つでは足りない、というユーザーにはSuperGrok Heavyがある。月額$300(約45,000円)のプランで利用できるこのモードでは、16の専門エージェントがチームとして回答を生成する。
16エージェントの合議がどこまで品質を引き上げるかは、正直なところ筆者自身まだ十分に検証できていない。ただ、考え方としては興味深い。4エージェントでは見落とす視点や、多数派に引きずられる誤りを、より多様な視点で拾える可能性がある。合議制の強度を課金で調整するというプライシングモデルも、AIサービスとしては前例がない。
問題はレイテンシだ。16エージェントの並列処理と合意形成にどれだけの時間がかかるのか。リアルタイムの対話で使うには厳しく、じっくり考えてほしい複雑な分析タスク向きだろう。
価格と実用面の話
API経由の利用は3月10日から開始されている。料金はインプット$20/100万トークン、アウトプット$60/100万トークン。前モデルのGrok 3と比較すると、インプットが33%、アウトプットが60%の値下げだ。
この価格設定は攻めている。マルチエージェントという複雑なアーキテクチャを動かしながら大幅な値下げを実現したのは、xAIのインフラ投資が効いているのだろう。SpaceXが2026年2月2日にxAIを買収(合計企業価値1.25兆ドル)して以降、計算リソースの制約が緩和された可能性がある。
一般ユーザーはX PremiumまたはSuperGrokプランから利用できる。目を引くのは医療文書の写真アップロード解析機能で、処方箋や検査結果を撮影して読み込ませると、内容を構造化して解説してくれる。マルチモーダル対応の実用的な応用例として筋が通っている。
「週次で賢くなる」という設計思想
Grok 4.20のもう一つの特徴は、ラピッドラーニング・アーキテクチャと呼ばれる仕組みだ。ユーザーからのフィードバックを取り込み、週単位でモデルの挙動を改善していく。
従来のLLMは、一度学習が完了すると次のバージョンまで基本的に変わらない。ChatGPTもClaudeも、マイナーアップデートはあるが、大きな改善は数ヶ月単位のリリースサイクルで届く。Grok 4.20は、このサイクルを「週次」に短縮しようとしている。
これが本当に機能するなら画期的だ。しかし懐疑的な視点も必要である。週次で挙動が変わるということは、先週は正しかった回答が今週は変わっている可能性もある。APIを通じてプロダクトに組み込んでいる開発者にとって、モデルの挙動が頻繁に変わるのはリスクでもある。安定性と改善速度のバランスをどう取るかは、運用が始まってから見えてくる課題だろう。
SpaceX買収の影響
触れないわけにはいかないのが、SpaceXによるxAI買収だ。企業価値1.25兆ドルという途方もない数字の統合は、AI業界の勢力図を書き換えうる。
SpaceXの巨大な計算インフラとxAIのモデル開発力が組み合わさることで、トレーニングとインファレンスのコスト構造が根本的に変わる可能性がある。先述の大幅な値下げも、その文脈で理解すべきだろう。一方で、SpaceXという防衛産業にも関わる企業がAIを所有することの社会的含意は、技術的な議論とは別に注視が必要だ。
率直な評価
Grok 4.20の最大の功績は、「単一の巨大モデルを作る」以外のスケーリング手法が有効であると証明したことだ。マルチエージェント合議により業界最高の非ハルシネーション率を達成し、しかも前世代より大幅に安い。アーキテクチャの発想として、これは正しい方向だと思う。
一方、課題も明確だ。78%の非ハルシネーション率は「最高」であっても「十分」ではない。SuperGrok Heavyの16エージェント構成はコストとレイテンシの壁がある。週次改善の安定性は未知数。そしてXプラットフォームとの強い結びつきは、Xを使わないユーザー層にとって依然として障壁になっている。
それでも、マルチエージェントという設計思想がAIの信頼性問題に対する有力な解答になりうることを、Grok 4.20は具体的な数字で示した。Perplexityの「Model Council」が異なるモデル間の合議を実現しているように、「複数の知性による相互検証」というパラダイムは2026年のAI業界を貫くテーマになりそうだ。
単体モデルの性能競争は続く。だが、もしかすると勝負を分けるのは、「1つの頭脳をどこまで大きくするか」ではなく、「複数の頭脳をどう協調させるか」なのかもしれない。
参考リンク
関連記事
Gemini 3.1 Ultra — 200万トークン、ライブ動画分析。Googleが本気で出した最上位モデルの全貌
Google Gemini 3.1 Ultraの全貌を解説。200万トークンのコンテキスト、ライブ動画分析、ネイティブマルチモーダル対応の実力。Proとの違い、料金、活用シーンと注意点を紹介
Gemini 3.1 Flash Lite — 100万トークン処理で「1ドル以下」の衝撃
Google Gemini 3.1 Flash Liteを解説。入力$0.25/100万トークンの超低価格、2.5倍速のレスポンス、Thinking Levels機能の使い方、翻訳・モデレーション・エージェントルーターの活用法を紹介
Meta Muse Spark — オープンソースの旗手がクローズドに転じた衝撃と、その実力
MetaのクローズドモデルMuse Sparkを実際に触ってレビュー。GPT-5.4・Claude Opus 4.6とのベンチマーク比較、無料で使える理由を解説する