Claudeより96%安い米国製のオープンモデルが、こっそりPinchBench 2位に上がってきた話
オープンソースのフロンティアLLM=中国製、という構図がもう半年以上続いている。DeepSeek、Qwen、GLM、Yi、Doubao、MiniMax。性能ベンチで上位に並ぶのはほぼ全部漢字圏の名前で、Llamaを軸に頑張っていたMetaも、Llama 4の評判は静かなままだ。
その流れに、米国のスタートアップから珍しく強い反撃が出た。Arcee AIが2026年4月1日に公開した「Trinity-Large-Thinking」だ。
これがちょっと変な数字を出している。Claude Opus 4.6の約96%安で、自律エージェント向けベンチマーク「PinchBench」で2位。Apache 2.0、商用利用フリー、ダウンロード可能。エイプリルフールに見えるが本当の話だ。
まず数字を整理する
スペックを並べるとこうなる。
- 総パラメータ: 400B
- アーキテクチャ: Sparse Mixture-of-Experts、4 of 256 ルーティング
- トークンあたりアクティブパラメータ: 約13B
- コンテキスト長: 262,144トークン
- ライセンス: Apache 2.0
- 訓練コスト(推定): 約$20M(30億円弱)
- 訓練ハードウェア: NVIDIA B300 Blackwell GPU 2,048基
- 訓練期間: 33日
「総400B、アクティブ13B」というのは、最近DeepSeek V3やQwen 3で広まった「巨大MoE×小さいアクティブ層」の設計と同じ思想だ。世界知識の広さは400B級モデルの密度を持ちつつ、推論時のレイテンシは13Bモデル並み——というのが狙い。
特筆すべきはコンテキストで、262,144トークン(約26万)。Claudeの200kやGPTの128kを上回る規模。これは後で書くが、エージェント用途では効いてくる数字だ。
「ベンチ2位」の中身
PinchBenchという名前を初めて聞く人も多いと思う。これは自律エージェントの能力(ツール呼び出し、長期タスク、複数ステップの計画)を測るベンチマークで、ここ数か月で言及が増えてきている指標だ。
このベンチでTrinity-Large-Thinkingは2位。1位はClaude 3.5 Opus(厳密にはOpus系)。GPT系やGemini系を抑えての2位、しかもオープンソース、しかもアクティブ13B。素直にすごい。
そしてここからが本題で、Claude Opus 4.6が$25/1Mトークン(出力)に対して、Trinityは推定で約96%安価——つまり1ドル前後で同等規模の出力を得られる、というのがArceeの主張だ。
正直、この比較には少し注釈が必要で、Anthropicが提供するマネージドAPIと、自前ホスティングまたは推論プロバイダ経由のオープンモデルとを単純に並べていい話ではない。それでも「Claude Opusと近い性能のOSSが、運用コストを2桁オーダーで下げられる」というメッセージそのものは強い。
米国製のOSSフロンティアモデルが珍しい理由
ここ1〜2年、米国の主要ラボ(OpenAI、Anthropic、Google、xAI)はみんなクローズド寄りの路線を選んだ。Llama 4ですら過去のシリーズに比べて公開に慎重になっている。一方で中国側はDeepSeek以降、競争のためか地政学的な戦略のためか、強いモデルを次々とApache 2.0や類似の寛容ライセンスで放流している。
その結果、エンタープライズが「自社環境にフロンティアレベルのLLMを置きたい」と思ったとき、現実的な選択肢の大半が中国製になっていた。これは米国・欧州・日本の企業にとってけっこう厄介な状況で、コンプライアンス的にも地政学的にも採用しにくいケースが多い。
Trinity-Large-Thinkingはここに「米国製でApache 2.0」という珍しいパッチを当てた格好。VentureBeatの記事タイトルも露骨に「the rare, powerful U.S.-made AI model」とそのまま書いている。Arcee自身、「中国一強への対抗」を狙っていることを隠していない。
$20Mを33日間に集中させた理由
訓練コストの$20M、Blackwell 2,048基、33日、というディテールは地味だがおもしろい。
最近のフロンティアモデル訓練は、「数か月かけて巨大GPUクラスタを使い倒す」がデフォルトだった。Arceeが取った戦略は逆で、大規模クラスタを短期集中で借り切って一気に走らせる。期間が短い分、固定費の積み上がりを抑えられる。
これは新興スタートアップが「自分たちでも独自のフロンティアモデルを作れる」と示す、一種の既成事実づくりに見える。Trinityシリーズは過去にも複数公開されているが、Large-Thinkingは明確に「エージェント時代のための再設計版」というポジションだ。
エージェント設計者から見た「美味しさ」
機能スペックだけでなく、エージェントを組む側の視点で何が嬉しいかを書いておく。
長いコンテキスト × ツール呼び出し精度
262kトークンというコンテキストは、エージェントが過去のツール呼び出しログ・観測結果・部分的な計画を全部抱えたまま走り続けられる長さだ。短いコンテキストのモデルだと、途中で要約・圧縮を挟む必要があり、ここで情報が落ちる。Trinity-Large-Thinkingは長期タスクと多段ツール呼び出しに特化してチューニングされているので、この組み合わせがそのまま強みになる。
コスト構造の自由度
Anthropic APIに$1,000/月払って動かしていたエージェントを、ホスティング込みでも数十ドル〜数百ドル規模に圧縮できる可能性がある。これが効くのは「常時稼働するエージェント」「大量のドキュメントを延々と読ませるエージェント」のような、推論回数が多いユースケース。SaaSの料金体系すら組み替えられる類の話だ。
OSSなので自前カスタマイズができる
Apache 2.0なので、ファインチューニング・蒸留・量子化・LoRA適用、何でもアリ。社内データで継続学習させて自社特化のエージェントを作る、という王道のシナリオがそのまま回せる。
逆に言うと、これらが効くのは自社で推論基盤を構築できるチームに限られる。GPUクラスタ運用や量子化チューニングの経験がない開発者にとっては、Claude APIを叩く方が結局速くて安心、という話になりがち。Trinityの恩恵を最大化できるのは、推論最適化に専任エンジニアを置けるレイヤー以上の組織だ。
微妙な点・気をつけるべき点
絶賛だけ書くのはフェアじゃないので、引っかかる点も列挙しておく。
- PinchBenchは新興ベンチで、業界全体でのコンセンサスがまだ薄い。 「2位」という数字はArceeの主張寄りに解釈すべき。MMLU、AIME、SWE-Benchのような確立した指標での結果が出てから、本格評価したほうがいい
- Claude Opus 4.6比96%安、という数字には推論プロバイダの選定とハードウェア前提が含まれる。 実環境でホスティングする場合、ストレージ・GPU時間・運用人件費を含めると2桁オーダーの差は埋まることもある
- 400B MoEは小さくない。 ローカルで動かすには相応のVRAMが必要で、家庭用GPUで遊べる規模ではない。OSSとはいえ「誰でも触れる」モデルではないことは正直に書いておきたい
- エコシステム支援がまだ薄い。 Claude/GPTほどのドキュメント・チューニング情報・コミュニティのナレッジは存在しない。最初の数か月は人柱フェーズ
どこで触れるか
モデルウェイトはHugging Face上に置かれている。カードや技術詳細はArcee公式ブログ、特にArcee AIのTrinity-Large-Thinking発表ページが一次情報として一番まとまっている。VentureBeatやTechCrunchが好意的に取り上げており、英語圏の技術コミュニティでは「久しぶりに米国OSSがフロンティアを叩いた」という温度感だ。
日本語の情報はほぼ存在しない。Arceeという会社名自体、AIニュース好きな人でも初見の場合が多いはず。だからこそ、いま触っておく価値がある。中国OSSモデルが選択肢の中心だった2025年からの空気が、2026年中盤にどう変わっていくか——その変化点の1つが、たぶんこのリリースだ。
関連記事
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
訓練の50%を自分でこなすAI — MiniMax M2.7「自己進化」モデルの衝撃
MiniMax M2.7は自身の訓練の30-50%を自律実行する「自己進化」型AI。10Bアクティブパラメータで業界トップ性能、価格は1/50。技術と意味を解説
TikTokの親会社が作った「何でも屋AI」が静かにベンチマークを塗り替えている — Seed 1.8の正体
ByteDanceが開発したエージェント特化モデルSeed 1.8を解説。GUI操作・検索・コード生成を統合し、BrowseCompでGemini超え。Doubaoの基盤としての位置づけと料金を整理する。