「どのAIが最強?」への日本発の答えは「全部使え」だった — Sakana Fugu
「GPT-5.5とClaude Opus 4.8とGemini 3.1 Pro、結局どれがいいの?」
この質問に正直に答えるなら、「タスクによる」になる。コーディングならClaude、数学ならGemini、日常会話ならGPT——そういう棲み分けが現実にある。でも3つのAPIを契約して、タスクごとに切り替えて、コストを管理する。面倒すぎる。
東京のAIユニコーンSakana AIが6月22日に正式リリースしたFuguは、この問題に真正面から挑んでいる。1つのAPI呼び出しの裏で複数のフロンティアLLMを自動選択・協調させ、結果だけ返す。
OpenAI互換のエンドポイント1本で、既存コードをほぼそのまま使える。
「指揮者」が裏でモデルを振り分ける
Fuguの中核は、2本のICLR 2026論文から生まれた技術だ。
1本目の「Trinity」は約6億パラメータの小さなモデルで、**Thinker(思考)、Worker(実行)、Verifier(検証)**という3つの役割を複数の大型モデルに割り振る。タスクを受けると、まずThinkerが方針を立て、Workerが実作業をし、Verifierが結果を検証する。それぞれの役割にどのモデルを当てるかをTrinityが判断する。
2本目の「Conductor」は7Bパラメータの指揮者モデルで、強化学習によって「どの組み合わせがどんなタスクに効くか」を自然言語レベルで学習している。従来のルーターは確率的にモデルを選ぶだけだったが、Conductorはタスクの性質を読み取ったうえで、指示の出し方まで含めて最適化する。
つまりFuguは「どのモデルが得意か知っている小さなAI」が、「実作業をする大きなAI」をマネジメントする構造だ。
ベンチマーク10冠——ただし注釈付き
Sakana AIが公開した数字は目を引く。
| ベンチマーク | Fugu Ultra | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 73.7% | 69.2% | 58.6% | 54.2% |
| GPQA-D | 95.5 | — | — | — |
| LiveCodeBench | 93.2 | — | — | — |
| Terminal-Bench 2.1 | 82.1 | — | — | — |
11のベンチマーク中10でトップスコア。唯一負けたのがMRCRv2(長文読解)でGPT-5.5に譲った、とのこと。
ただし、ここには冷静に見るべきポイントがある。
ローンチ翌日、独立したテスターたちが「ベンチマークスコアと実際の体感にかなりの差がある」と報告した。シェーダー生成やインタラクティブシーンの構築で、Fugu Ultraのhighモードが1タスクに30分以上かかったケースがあり、出力品質もFable 5に及ばなかったという声がある。
ベンチマークは「正解にたどり着けるか」を測る。だが実務では「いつまでに返ってくるか」も同じくらい重要だ。複数モデルを内部で回している分、レイテンシが増えるのは構造上避けられない。特にリアルタイム性が求められるチャットや、コーディングの対話的なやりとりでは、この遅延が体験を損なう可能性がある。
料金 — 個人開発者には少し痛い
サブスクリプションが3つと、従量課金が用意されている。
| プラン | 月額 | 日本円換算 | 用途 |
|---|---|---|---|
| Standard | $20 | 約3,000円 | 軽い利用。Fugu + Fugu Ultra |
| Pro | $100 | 約15,000円 | Standard の10倍の利用枠 |
| Max | $200 | 約30,000円 | Standard の20倍 |
従量課金はFugu Ultraで入力$5/出力$30/キャッシュ$0.50(100万トークンあたり)。
正直、Standardの$20/月は良心的だ。GPT-5.5やClaude Opus 4.8を個別に使うより安くつくユースケースは多い。ただしProやMaxに上がると、特定モデルの直接APIと比べてコスト優位性が薄れる場面も出てくる。
注意点として、EU/EEA圏では現時点で利用できない。日本からは問題なくアクセスできる。
OpenRouterとの違い
「複数モデルを使い分ける」という発想自体は新しくない。OpenRouterのFusion機能も複数モデルの回答を合成する。
違いはアプローチだ。OpenRouterのFusionは複数モデルに同じ質問を投げ、それぞれの回答を合成する「投票方式」。Fuguは指揮者が事前にどのモデルをどう使うか決めて、役割分担で作業する「オーケストラ方式」。
投票方式はシンプルだが、同じ質問を複数モデルに投げるのでコストが膨らみやすい。オーケストラ方式は効率的だが、指揮者の判断がズレると全体が崩れる。FuguのConductorが実際にどこまで賢いかが、長期的な評価の分かれ目になるだろう。
GPT-5.6のSol/Terra/Luna と重なる思想
面白いのは、つい昨日OpenAIが発表したGPT-5.6も3層構成(Sol/Terra/Luna)を採用していることだ。タスクの重さに応じてモデルを使い分けるという発想は同じだが、OpenAIの場合は「自社モデルの中だけ」でのルーティング。Fuguは「他社モデルも含めて」のルーティング。
どちらが生き残るかは分からないが、「ユーザーがモデル名を意識しなくなる」方向に業界が動いていることは確かだ。AIアプリ開発者にとって、バックエンドのモデルが差し替え可能になるのは健全な進化だと思う。ベンダーロックインのリスクが減る。
Sakana AIという会社の立ち位置
Sakana AIはTransformer論文の共著者であるLlion Jones氏とDavid Ha氏が2023年に東京で設立した。評価額は約4,000億円(26.5億ドル)。Google、三菱UFJ、Khosla Venturesが出資している。
日本発のAI企業が「フロンティアモデルを自分で作る」のではなく「フロンティアモデルを束ねて超える」というアプローチを取ったのは賢い。自前で数千億パラメータのモデルを訓練するには兆円規模の投資がいるが、既存モデルの組み合わせを最適化するなら少ないパラメータ(0.6B + 7B)で実現できる。
ただし、この戦略には弱点もある。GPT-5.5やClaude Opus 4.8のAPI料金が上がれば、Fuguのコストもそのまま上がる。下位モデルの性能に依存する以上、自社でコントロールできない変数が多い。
使うべきかどうか
今すぐ試す価値があるのは、複数のLLMを併用していて管理に疲れている開発者だ。既にOpenAIとAnthropicとGoogleのAPIキーを持っていて、タスクごとに使い分けている人なら、Fuguに一本化するメリットは大きい。
一方、ChatGPT PlusやClaude Proだけで十分な個人ユーザーには、今のところ乗り換える理由が薄い。Fuguの真価はAPI経由で複雑なタスクを自動処理させるワークフローで発揮される。
ベンチマークの派手な数字に期待しすぎず、まずはStandard($20/月)で自分のユースケースに合うか試してみるのが現実的だろう。
関連記事
GPT-5.6が出た。ただし使えるのは、米政府が選んだ20社だけ
OpenAIがGPT-5.6を限定プレビュー。Sol/Terra/Lunaの3層構成、ultraモードのサブエージェント、ベンチマーク、料金、政府管理下での配布制限を解説。
Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した
Gemini 3.5 Flashはエージェント性能首位で4倍速。API価格Opusの1/10。使い分けを解説
自分のコードを自分で直すAIが現れた — MiniMax M2.7の「自己進化」は何が新しいのか
MiniMax M2.7は100回以上の自律改善ループで自身のスキャフォールドを最適化するオープンソースLLM。SWE-Pro 56%、入力$0.30/M。自己進化の仕組みと実際の使い道を整理した。