295Bパラメータをオープンソースで — Tencentの新モデルHy3が静かに出してきた数字

DeepSeek、Qwen、GLM-5。中国発のオープンソースLLMが次々と出てくる中で、4月23日にもう1つ加わった。Tencentの「Hy3 Preview」だ。

海外メディアのDecryptが「誰も話題にしていない中国最効率のLLM」と書いたのが目を引いた。実際、日本語の記事は今のところ見当たらない。だが中身を見ると、話題にならないのが不思議なくらいの数字が並んでいる。

295Bで動くのは21Bだけ

Hy3 Previewは295Bパラメータの大規模モデルだが、Mixture-of-Experts（MoE）アーキテクチャを採用しており、1トークンあたり実際に動くのは21Bぶんだけだ。残りの274Bは「待機中の専門家」として眠っている。

これはDeepSeek V3と同じ設計思想だ。巨大なモデルの知識量を持ちながら、推論コストは小型モデル並みに抑える。コンテキスト長は256Kトークンで、長い文書を丸ごと読ませる使い方にも対応する。

気になるベンチマークを整理する。

SWE-bench Verifiedで74.4%。Claude Opus 4.6の80.8%やGPT-5.4の78.6%には届かないが、オープンソースモデルとしてはかなり高い水準だ。GLM-5.1の77.8%にも肉薄する。

コーディングとエージェントタスクで最大の改善が見られたと公式は説明している。Terminal-Bench 2.0、BrowseComp、WideSearchといったエージェント系ベンチマークでも好成績。最大495ステップの複雑なエージェントタスクを実行できるという。

数学・理科系も強い。清華大学の数学博士資格試験（2026年春）で88.4点を記録し、中国モデル最高。FrontierScience-Olympiadでも上位に入っている。

正直、MoEの21Bアクティブでこの数字が出るのは素直にすごい。

API価格はTencent Cloud経由で入力100万トークンあたり1.2人民元（約25円）、出力は4人民元（約85円）。Claude Opus 4.6の入力$5/M tokensと比べると桁が違う。

さらにOpenRouterでは期間限定で無料提供されている。試すだけなら今すぐコストゼロで使える。

ベンチマークの数字だけでなく、実稼働している点がHy3の強みだ。Tencentのチャットアプリ「元宝（Yuanbao）」、コーディングアシスタント「CodeBuddy」、ビジネスツール「WorkBuddy」、Tencent Docsなど、すでに複数のプロダクトに統合されている。

「モデルを出して終わり」ではなく、自社サービスで実運用してから公開するというアプローチは、Tencentらしい堅実さだ。ベンチマーク番長で終わるリスクが低い。

Hy3は、Tencentが元OpenAI研究者のYao Shunyuを迎え入れてから初めての主要モデルリリースでもある。公式の説明によれば、事前学習とRLのインフラを一から再構築した上で開発されたという。

前世代のHunyuan 3.0は「WeChat 13億ユーザーへの統合」が話題の中心だったが、Hy3ではモデル自体の性能が前面に出てきた。インフラ再構築の成果が数字に表れた格好だ。

とはいえ、懸念がないわけではない。

まず「Preview」という名前が示すとおり、これは最終版ではない。エッジケースでの安定性や、日本語を含む多言語性能については情報が限られている。中国語と英語のベンチマークが中心で、日本語タスクでどれだけの精度が出るかは未知数だ。

また、295B MoEという規模のモデルをローカルで動かすにはそれなりのGPUが必要になる。vLLMでの推論はサポートされているが、個人開発者が手元で気軽に試せるサイズではない。API経由での利用が現実的だろう。

中国発オープンソースLLMの選択肢が増えること自体は、開発者にとって純粋に嬉しい。DeepSeek V3、Qwen3.6、GLM-5.1に加えてHy3 Previewが登場したことで、用途に応じた使い分けがさらに広がる。

コーディング特化ならGLM-5.1が依然として最強だが、コスト効率を重視するならHy3のMoE構成は魅力的だ。入力25円/100万トークンという価格で、SWE-bench 74.4%の性能が手に入る。「まず試す」のハードルが限りなく低い。

OpenRouterの無料期間があるうちに、自分のタスクで精度を確かめてみる価値はある。