Claudeより96%安い米国製のオープンモデルが、こっそりPinchBench 2位に上がってきた話

オープンソースのフロンティアLLM＝中国製、という構図がもう半年以上続いている。DeepSeek、Qwen、GLM、Yi、Doubao、MiniMax。性能ベンチで上位に並ぶのはほぼ全部漢字圏の名前で、Llamaを軸に頑張っていたMetaも、Llama 4の評判は静かなままだ。

その流れに、米国のスタートアップから珍しく強い反撃が出た。Arcee AIが2026年4月1日に公開した「Trinity-Large-Thinking」だ。

これがちょっと変な数字を出している。Claude Opus 4.6の約96%安で、自律エージェント向けベンチマーク「PinchBench」で2位。Apache 2.0、商用利用フリー、ダウンロード可能。エイプリルフールに見えるが本当の話だ。

まず数字を整理する

スペックを並べるとこうなる。

総パラメータ: 400B
アーキテクチャ: Sparse Mixture-of-Experts、4 of 256 ルーティング
トークンあたりアクティブパラメータ: 約13B
コンテキスト長: 262,144トークン
ライセンス: Apache 2.0
訓練コスト（推定）: 約$20M（30億円弱）
訓練ハードウェア: NVIDIA B300 Blackwell GPU 2,048基
訓練期間: 33日

「総400B、アクティブ13B」というのは、最近DeepSeek V3やQwen 3で広まった「巨大MoE×小さいアクティブ層」の設計と同じ思想だ。世界知識の広さは400B級モデルの密度を持ちつつ、推論時のレイテンシは13Bモデル並み——というのが狙い。

特筆すべきはコンテキストで、262,144トークン（約26万）。Claudeの200kやGPTの128kを上回る規模。これは後で書くが、エージェント用途では効いてくる数字だ。

「ベンチ2位」の中身

PinchBenchという名前を初めて聞く人も多いと思う。これは自律エージェントの能力（ツール呼び出し、長期タスク、複数ステップの計画）を測るベンチマークで、ここ数か月で言及が増えてきている指標だ。

このベンチでTrinity-Large-Thinkingは2位。1位はClaude 3.5 Opus（厳密にはOpus系）。GPT系やGemini系を抑えての2位、しかもオープンソース、しかもアクティブ13B。素直にすごい。

そしてここからが本題で、Claude Opus 4.6が$25/1Mトークン（出力）に対して、Trinityは推定で約96%安価——つまり1ドル前後で同等規模の出力を得られる、というのがArceeの主張だ。

正直、この比較には少し注釈が必要で、Anthropicが提供するマネージドAPIと、自前ホスティングまたは推論プロバイダ経由のオープンモデルとを単純に並べていい話ではない。それでも「Claude Opusと近い性能のOSSが、運用コストを2桁オーダーで下げられる」というメッセージそのものは強い。

米国製のOSSフロンティアモデルが珍しい理由

ここ1〜2年、米国の主要ラボ（OpenAI、Anthropic、Google、xAI）はみんなクローズド寄りの路線を選んだ。Llama 4ですら過去のシリーズに比べて公開に慎重になっている。一方で中国側はDeepSeek以降、競争のためか地政学的な戦略のためか、強いモデルを次々とApache 2.0や類似の寛容ライセンスで放流している。

その結果、エンタープライズが「自社環境にフロンティアレベルのLLMを置きたい」と思ったとき、現実的な選択肢の大半が中国製になっていた。これは米国・欧州・日本の企業にとってけっこう厄介な状況で、コンプライアンス的にも地政学的にも採用しにくいケースが多い。

Trinity-Large-Thinkingはここに「米国製でApache 2.0」という珍しいパッチを当てた格好。VentureBeatの記事タイトルも露骨に「the rare, powerful U.S.-made AI model」とそのまま書いている。Arcee自身、「中国一強への対抗」を狙っていることを隠していない。

$20Mを33日間に集中させた理由

訓練コストの$20M、Blackwell 2,048基、33日、というディテールは地味だがおもしろい。

最近のフロンティアモデル訓練は、「数か月かけて巨大GPUクラスタを使い倒す」がデフォルトだった。Arceeが取った戦略は逆で、大規模クラスタを短期集中で借り切って一気に走らせる。期間が短い分、固定費の積み上がりを抑えられる。

これは新興スタートアップが「自分たちでも独自のフロンティアモデルを作れる」と示す、一種の既成事実づくりに見える。Trinityシリーズは過去にも複数公開されているが、Large-Thinkingは明確に「エージェント時代のための再設計版」というポジションだ。

エージェント設計者から見た「美味しさ」

機能スペックだけでなく、エージェントを組む側の視点で何が嬉しいかを書いておく。

長いコンテキスト × ツール呼び出し精度

262kトークンというコンテキストは、エージェントが過去のツール呼び出しログ・観測結果・部分的な計画を全部抱えたまま走り続けられる長さだ。短いコンテキストのモデルだと、途中で要約・圧縮を挟む必要があり、ここで情報が落ちる。Trinity-Large-Thinkingは長期タスクと多段ツール呼び出しに特化してチューニングされているので、この組み合わせがそのまま強みになる。

コスト構造の自由度

Anthropic APIに$1,000/月払って動かしていたエージェントを、ホスティング込みでも数十ドル〜数百ドル規模に圧縮できる可能性がある。これが効くのは「常時稼働するエージェント」「大量のドキュメントを延々と読ませるエージェント」のような、推論回数が多いユースケース。SaaSの料金体系すら組み替えられる類の話だ。

OSSなので自前カスタマイズができる

Apache 2.0なので、ファインチューニング・蒸留・量子化・LoRA適用、何でもアリ。社内データで継続学習させて自社特化のエージェントを作る、という王道のシナリオがそのまま回せる。

逆に言うと、これらが効くのは自社で推論基盤を構築できるチームに限られる。GPUクラスタ運用や量子化チューニングの経験がない開発者にとっては、Claude APIを叩く方が結局速くて安心、という話になりがち。Trinityの恩恵を最大化できるのは、推論最適化に専任エンジニアを置けるレイヤー以上の組織だ。

微妙な点・気をつけるべき点

絶賛だけ書くのはフェアじゃないので、引っかかる点も列挙しておく。

PinchBenchは新興ベンチで、業界全体でのコンセンサスがまだ薄い。 「2位」という数字はArceeの主張寄りに解釈すべき。MMLU、AIME、SWE-Benchのような確立した指標での結果が出てから、本格評価したほうがいい
Claude Opus 4.6比96%安、という数字には推論プロバイダの選定とハードウェア前提が含まれる。 実環境でホスティングする場合、ストレージ・GPU時間・運用人件費を含めると2桁オーダーの差は埋まることもある
400B MoEは小さくない。 ローカルで動かすには相応のVRAMが必要で、家庭用GPUで遊べる規模ではない。OSSとはいえ「誰でも触れる」モデルではないことは正直に書いておきたい
エコシステム支援がまだ薄い。 Claude/GPTほどのドキュメント・チューニング情報・コミュニティのナレッジは存在しない。最初の数か月は人柱フェーズ

どこで触れるか

モデルウェイトはHugging Face上に置かれている。カードや技術詳細はArcee公式ブログ、特にArcee AIのTrinity-Large-Thinking発表ページが一次情報として一番まとまっている。VentureBeatやTechCrunchが好意的に取り上げており、英語圏の技術コミュニティでは「久しぶりに米国OSSがフロンティアを叩いた」という温度感だ。

日本語の情報はほぼ存在しない。Arceeという会社名自体、AIニュース好きな人でも初見の場合が多いはず。だからこそ、いま触っておく価値がある。中国OSSモデルが選択肢の中心だった2025年からの空気が、2026年中盤にどう変わっていくか——その変化点の1つが、たぶんこのリリースだ。

Claudeより96%安い米国製のオープンモデルが、こっそりPinchBench 2位に上がってきた話

まず数字を整理する

「ベンチ2位」の中身

米国製のOSSフロンティアモデルが珍しい理由

$20Mを33日間に集中させた理由

エージェント設計者から見た「美味しさ」

微妙な点・気をつけるべき点

どこで触れるか

関連記事

自分のコードを自分で直すAIが現れた — MiniMax M2.7の「自己進化」は何が新しいのか

プロンプト1つでLLMをファインチューニング＆デプロイ — Pioneer（Fastino）の仕組みと可能性

論文を読み、データを集め、モデルを鍛える — Hugging Faceが公開した「AI研究者エージェント」