Qwen 3.6 Plus — 無料で100万トークン、Opus級ベンチマーク。代償はデータだけか
Claude Opus 4.6の入力単価が100万トークンあたり5ドル。GPT-5.4が2.5ドル。
Qwen 3.6 Plusは0.28ドルだ。
しかもOpenRouterのプレビュー期間中は無料。コンテキストウィンドウは100万トークン。ベンチマークの一部ではClaude Opus 4.5を上回る。
「話がうますぎないか」と思った人は正しい。うますぎる話には、たいてい注釈がつく。Alibabaの最新フラッグシップモデルを実際に触りながら、その注釈を読み解いていく。
Qwen 3.5からの飛躍 — アーキテクチャが変わった
Qwen 3.6 Plusは、Qwen公式ブログで「Towards Real World Agents」と銘打たれている。名前の通り、前世代の3.5シリーズとは設計思想からして違う。
最大の技術的変化はアーキテクチャだ。Hybrid Linear AttentionとSparse MoE(Mixture of Experts)ルーティングを組み合わせた新設計を採用し、推論効率とスケーラビリティの両立を狙っている。100万トークンのコンテキストウィンドウはこのアーキテクチャの恩恵で、最大65,536トークンの出力にも対応する。
もうひとつの大きな変更が、思考チェーン(Chain of Thought)の常時オン化だ。Qwen 3.5では推論モードのオン・オフをユーザーが切り替えられたが、3.6 Plusではこれを廃止。常に思考プロセスを経てから回答を生成する。速度との引き換えに見えるが、実際にはアーキテクチャ改良でオーバーヘッドを吸収しているようだ。
ネイティブのFunction Calling、コンピューターユース機能も搭載しており、エージェント用途に本気で照準を合わせてきた。
ベンチマークの「読み方」
数字だけを見ると、Qwen 3.6 Plusは化け物に見える。だが、ベンチマーク表は読み方を間違えると嘘をつく。
Qwen 3.6 Plusが勝っている領域:
- OmniDocBench v1.5: 91.2(Claude 4.5 Opusを大幅に上回る)
- RealWorldQA: 85.4(同じく上回る)
- Terminal-Bench 2.0: 61.6(vs Claude 4.5 Opus 59.3)
- QwenWebBench Elo: 1502(上位グループ)
勝てていない領域:
- SWE-bench Verified: 78.8(vs Claude 4.5 Opus 80.9)
- Terminal-Bench 2.0 vs Claude 4.6 Opus: 61.6 vs 65.4で逆転負け
ここが重要だ。Qwen 3.6 Plusのベンチマーク比較対象は多くの場合「Claude 4.5 Opus」であって、最新の「Claude 4.6 Opus」ではない。4.6との直接比較では、コーディング系ベンチマークで数ポイントの差がつく。
ドキュメント理解やマルチモーダル(テキスト+画像)の処理では確かに強い。だが「Opus級」という表現は、世代をひとつずらして読む必要がある。正確には「前世代のOpusと同等、現世代にはやや届かない」というのがフェアな評価だろう。
速度は文句なしに速い
ベンチマークに留保がつく一方で、速度については文句のつけようがない。
コミュニティのテストでは、Qwen 3.6 Plusの出力速度がClaude Opus 4.6の2〜3倍というレポートが複数上がっている。トークン/秒ベースでの比較だ。
エージェント型のコーディングタスク——たとえば大規模リポジトリの横断的なリファクタリングや、複数ファイルにまたがるバグ修正——では、この速度差は体感で大きい。考える時間が短いぶん、試行錯誤のサイクルが回しやすくなる。
100万トークンのコンテキストウィンドウと組み合わせると、巨大なコードベースを丸ごと入力して高速にレスポンスが返ってくるという、これまで高額モデルでしか実現できなかった使い方がほぼ無料で可能になる。
価格破壊の構造
冒頭の価格比較を改めて整理する。
| モデル | 入力(/1Mトークン) | 出力(/1Mトークン) |
|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Qwen 3.6 Plus | $0.28〜$0.50 | $1.10〜$2.00 |
Alibaba Model Studioでの正規料金でも、Claude Opusの10分の1から18分の1。OpenRouterのプレビュー期間中は完全に無料だ。
この価格設定が可能な理由はいくつかある。MoEアーキテクチャにより推論時のアクティブパラメータ数を抑えている点、中国国内のGPUコストがグローバル市場より低い点、そしてプレビュー期間はデータ収集を兼ねたマーケティングである点。
3つ目が、この話の核心だ。
データ収集という「代償」
OpenRouterのプレビュー版には明確な注記がある。プレビュー期間中、プロンプトと生成結果はモデル改善のためにAlibabaに収集される。
つまり、無料で使う代わりに、あなたの入力データがAlibabaの学習素材になる可能性があるということだ。本番環境の機密コードをそのまま流し込むのは避けたほうがいい。
正規のAlibaba Model Studio経由での利用であっても、中国企業のクラウドサービスにデータを預けることに抵抗がある組織は少なくないだろう。これは技術的な問題ではなく、ガバナンスとコンプライアンスの問題だ。
ただし、個人の学習用途やオープンソースプロジェクトのコード生成であれば、このトレードオフは十分に受け入れられる。要は「何を入力するか」を意識すればいい。
誰が使うべきか
向いているケース:
個人開発者がサイドプロジェクトのコーディングアシスタントとして使う場合。100万トークンのコンテキストと高速レスポンスは、Claude Code等を補完する選択肢として魅力的だ。大量のドキュメントを一度に投げ込む必要があるリサーチ用途にも向いている。
向いていないケース:
企業の本番環境で機密コードを扱うなら、データ収集ポリシーがネックになる。また、SWE-benchで数ポイントの差が効いてくるような、高難度のコーディングタスクの精度を追求するなら、まだClaude Opus 4.6に分がある。
筆者としては、「メインのコーディングモデルをClaude Opusに据えつつ、大量のドキュメント処理やプロトタイピングの初期段階でQwen 3.6 Plusを併用する」という使い分けが現時点では最も合理的だと感じている。
APIモデルの「価格崩壊」が始まっている
Qwen 3.6 Plusの登場は、単体のモデルレビューとしてよりも、API市場全体のトレンドとして読んだほうが意味がある。
DeepSeek V4が$0.30/Mトークンを打ち出し、Qwen 3.6 Plusが$0.28で追随した。Gemini 3.1 Flash Liteも1ドル以下の領域にいる。中国発のモデルを中心に、「Opus級の性能を、GPT-3.5時代の価格で」が現実になりつつある。
この流れが続けば、APIコストが開発者のモデル選択の決定要因ではなくなる日が近い。差別化の軸は、信頼性、データガバナンス、エコシステムの成熟度、そしてエージェント統合の使い勝手に移っていく。
Qwen 3.6 Plusはその転換点を示すモデルだ。性能だけを見れば、もはや「中国発だから」という理由で無視できる水準ではない。しかし、データの扱いとガバナンスの透明性という点では、AnthropicやOpenAIに一日の長がある。
結局のところ、「何に対して金を払っているのか」を意識できる人にとっては、選択肢が増えたことは純粋に良いことだ。ただし、タダより高いものはないという古い格言を、忘れないでおきたい。
関連記事
Qwen 3.5完全ガイド — 9BモデルがQwen3-30Bを超える、Alibabaの逆襲
Alibaba Qwen 3.5の全7モデルを徹底解説。9Bが30B超えの衝撃的なパラメータ効率、Ollamaでのローカル実行手順、GPT-5.2との性能比較がわかる。
Cursor Composer 2の正体 — 中国発Kimi K2.5ベース、価格90%減、そして残された問い
Cursor Composer 2はMoonshot AIのKimi K2.5を土台に独自RLで鍛えた自社コーディングモデル。SWE-benchや価格をOpus 4.6/GPT-5.4と比較し、その実力と論争を解説する。
GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角
Z.ai(智譜AI)のGLM-5.1はSWE-Bench ProでGPT-5.4やClaude Opus 4.6を上回った744Bオープンモデル。8時間連続自律コーディングの仕組み、料金、ベンチマークの裏側を解説する。