295Bパラメータをオープンソースで — Tencentの新モデルHy3が静かに出してきた数字
DeepSeek、Qwen、GLM-5。中国発のオープンソースLLMが次々と出てくる中で、4月23日にもう1つ加わった。Tencentの「Hy3 Preview」だ。
海外メディアのDecryptが「誰も話題にしていない中国最効率のLLM」と書いたのが目を引いた。実際、日本語の記事は今のところ見当たらない。だが中身を見ると、話題にならないのが不思議なくらいの数字が並んでいる。
295Bで動くのは21Bだけ
Hy3 Previewは295Bパラメータの大規模モデルだが、Mixture-of-Experts(MoE)アーキテクチャを採用しており、1トークンあたり実際に動くのは21Bぶんだけだ。残りの274Bは「待機中の専門家」として眠っている。
これはDeepSeek V3と同じ設計思想だ。巨大なモデルの知識量を持ちながら、推論コストは小型モデル並みに抑える。コンテキスト長は256Kトークンで、長い文書を丸ごと読ませる使い方にも対応する。
ベンチマーク — コーディングに強い
気になるベンチマークを整理する。
SWE-bench Verifiedで74.4%。Claude Opus 4.6の80.8%やGPT-5.4の78.6%には届かないが、オープンソースモデルとしてはかなり高い水準だ。GLM-5.1の77.8%にも肉薄する。
コーディングとエージェントタスクで最大の改善が見られたと公式は説明している。Terminal-Bench 2.0、BrowseComp、WideSearchといったエージェント系ベンチマークでも好成績。最大495ステップの複雑なエージェントタスクを実行できるという。
数学・理科系も強い。清華大学の数学博士資格試験(2026年春)で88.4点を記録し、中国モデル最高。FrontierScience-Olympiadでも上位に入っている。
正直、MoEの21Bアクティブでこの数字が出るのは素直にすごい。
価格 — OpenRouterなら2週間無料
API価格はTencent Cloud経由で入力100万トークンあたり1.2人民元(約25円)、出力は4人民元(約85円)。Claude Opus 4.6の入力$5/M tokensと比べると桁が違う。
さらにOpenRouterでは期間限定で無料提供されている。試すだけなら今すぐコストゼロで使える。
すでにTencentのサービスに組み込まれている
ベンチマークの数字だけでなく、実稼働している点がHy3の強みだ。Tencentのチャットアプリ「元宝(Yuanbao)」、コーディングアシスタント「CodeBuddy」、ビジネスツール「WorkBuddy」、Tencent Docsなど、すでに複数のプロダクトに統合されている。
「モデルを出して終わり」ではなく、自社サービスで実運用してから公開するというアプローチは、Tencentらしい堅実さだ。ベンチマーク番長で終わるリスクが低い。
元OpenAI研究者の影響
Hy3は、Tencentが元OpenAI研究者のYao Shunyuを迎え入れてから初めての主要モデルリリースでもある。公式の説明によれば、事前学習とRLのインフラを一から再構築した上で開発されたという。
前世代のHunyuan 3.0は「WeChat 13億ユーザーへの統合」が話題の中心だったが、Hy3ではモデル自体の性能が前面に出てきた。インフラ再構築の成果が数字に表れた格好だ。
気になる点
とはいえ、懸念がないわけではない。
まず「Preview」という名前が示すとおり、これは最終版ではない。エッジケースでの安定性や、日本語を含む多言語性能については情報が限られている。中国語と英語のベンチマークが中心で、日本語タスクでどれだけの精度が出るかは未知数だ。
また、295B MoEという規模のモデルをローカルで動かすにはそれなりのGPUが必要になる。vLLMでの推論はサポートされているが、個人開発者が手元で気軽に試せるサイズではない。API経由での利用が現実的だろう。
DeepSeek V3の次の選択肢になるか
中国発オープンソースLLMの選択肢が増えること自体は、開発者にとって純粋に嬉しい。DeepSeek V3、Qwen3.6、GLM-5.1に加えてHy3 Previewが登場したことで、用途に応じた使い分けがさらに広がる。
コーディング特化ならGLM-5.1が依然として最強だが、コスト効率を重視するならHy3のMoE構成は魅力的だ。入力25円/100万トークンという価格で、SWE-bench 74.4%の性能が手に入る。「まず試す」のハードルが限りなく低い。
OpenRouterの無料期間があるうちに、自分のタスクで精度を確かめてみる価値はある。
関連記事
WeChatの13億ユーザーにAIエージェントが届く — Tencent Hunyuan 3.0が意味すること
Tencentが次世代LLM Hunyuan 3.0を4月にリリース予定。300億パラメータ、WeChat AIエージェント統合、元OpenAI研究者が主導する開発体制を整理する。
Claudeより96%安い米国製のオープンモデルが、こっそりPinchBench 2位に上がってきた話
米Arcee AIが400BのOSS推論モデルTrinity-Large-ThinkingをApache 2.0で公開。Claude Opus 4.6比96%安、長期エージェント特化の中身と評価を整理する。
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。