FlowTune Media

オープンソースの旗手が「非公開」で最強を取りにきた — Qwen 3.6-Max-Previewの矛盾と実力

Qwenといえばオープンソースだった。Apache 2.0ライセンス、重みは全公開、商用利用も自由。それがAlibabaのAIモデル戦略の柱であり、Qwen 3.5シリーズ以降、オープンモデルの代名詞と言ってもよかった。

その旗手が4月20日、クローズドウェイトのフラッグシップモデルをリリースした。

Qwen 3.6-Max-Preview。Alibaba Cloud Model StudioとQwen Studioでのみ提供されるプロプライエタリモデルで、SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCodeの6つのコーディングベンチマークで世界1位を獲得した。

Qwenがクローズドで勝負に出た。これは戦略的に大きい。

6つの1位が意味するもの

ベンチマークの数字を並べるだけでは何もわからないので、中身を見る。

まず目を引くのはQwenWebBenchだ。フロントエンド開発の実力を測るこのベンチマークで、Max-PreviewはELO 1558を記録している。比較対象のClaude Opus 4.5は1182。約370ポイントの差は「誤差」とは呼べない。Webアプリのコードを書かせたとき、このモデルが頭ひとつ抜けている可能性は高い。

Terminal-Bench 2.0は実際のターミナル環境でのエンジニアリング能力を測る(32CPU、48GB RAM、3時間のタイムアウト制限つき)。ここでMax-Previewは61.6%。前モデルのQwen 3.6-Plusから3.8ポイント上昇した。SkillsBenchでは9.9ポイント、SciCodeでは10.8ポイントの改善。いずれもエージェント型コーディングの文脈で意味のある伸びだ。

SWE-bench Verifiedでは78.8%を記録し、これはClaude Opus 4.6の80.6%にわずか1.8ポイント及ばない。だがSWE-bench Proではトップ。ベンチマークの選び方で勝敗が入れ替わるレベルの僅差であり、フロンティアモデルと正面から張り合えるポジションにいる。

コンテキスト260K、出力3倍 — 制約もある

強みだけ見ていると誤解する。制約も整理しておく。

コンテキストウィンドウは260Kトークン。同じファミリーのQwen 3.6-Plusが100万トークンに対応していることを考えると、短い。大規模なコードベースを丸ごと読ませる用途では、Plusのほうが適している場面がある。

もうひとつ気になるのが出力の冗長性だ。複数のレビューが「他のモデルの約3倍の出力長」と報告している。チャットで雑談する分には気にならないかもしれないが、APIコストはトークン単位で課金されるので、実質的なコストは見かけの3倍になり得る。エージェント用途でmax_tokensを適切に設定しないと、無駄な出力に課金される。

料金 — プレビュー期間は無料、正式版は未定

現時点ではプレビュー段階で、Alibaba Cloud Model Studioから無料で利用できる。正式リリース時の料金は未発表だが、同ファミリーのQwen3-Maxが入力$0.78、出力$3.90(100万トークンあたり)だったことを考えると、それより若干高い程度に落ち着く可能性が高い。いずれにせよClaude Opus 4.6の入力$15、出力$75とは桁が違う価格帯になるだろう。

ただし先述の3倍冗長性を考慮すると、実効コストは見かけの3倍になり得る。料金が安くても、出力トークン数が膨らめば結局は高くつく。

preserve_thinkingというパラメータが用意されており、エージェントのワークフロー内で思考過程を保持しながら出力を制御できる。この機能をうまく使えば冗長性を抑えられる可能性はあるが、プレビュー段階では最適な設定が確立されていない。

なぜQwenがクローズドモデルを出したのか

これが一番面白い問い。

考えられる理由はいくつかある。まず、ベンチマーク首位を維持するには、モデルの内部構造を公開するリスクがある。競合がアーキテクチャを研究し、より効率的なモデルを作る足がかりにする。OpenAIやAnthropicがクローズドなのはまさにこの理由だ。

もうひとつは収益化の圧力。Alibaba Cloud Model Studioの有料APIとしてのみ提供することで、直接的な収益を確保できる。オープンモデルだけでは「使われるけれど儲からない」状態になりかねない。

ただ、Qwenはオープンモデルを捨てたわけではない。同じ週にQwen3.6-27B(Apache 2.0の密モデル)もリリースしている。「オープンはコミュニティ向け、クローズドはフラッグシップ」という二段構えの戦略に移行したと見るほうが正確だろう。

これはMetaのLlama戦略とも異なる。MetaはLlama 4をコミュニティライセンスで公開しているが、MAU制限がある。Qwenのオープンモデル(3.6-27Bなど)はApache 2.0で制限なし。その代わりフラッグシップは非公開。棲み分けとしては、むしろ筋が通っている。

Claude Code・Cursorとの相性

Qwen 3.6-Max-PreviewはOpenAI互換APIを提供しているため、Cursorのモデル設定で直接指定できる。Claude CodeからもAPIキーを設定すれば呼び出し可能だ。

フロントエンド開発のタスクに限定すれば、QwenWebBenchの数字から言ってClaude Opus以上の結果が期待できる。逆に、長いコードベースを丸ごと解析させるような用途では260Kのコンテキスト制限がネックになる。

組み合わせとして有力なのは、コードベース全体の解析はClaude OpusやQwen 3.6-Plus(100万トークン)に任せ、UIコンポーネントの生成やフロントエンドの修正にMax-Previewを使う分業体制だ。ベンチマーク首位のモデルを常に全タスクに使う必要はない。

正直な評価

強い。特にフロントエンド領域では現時点でトップクラスと言っていい。Terminal-BenchやSWE-benchの数字もフロンティアモデルと遜色ない。

一方で、プレビュー段階であること、出力の冗長性、260Kという限定的なコンテキスト長は無視できない。「最強モデル」と呼ぶには注釈が必要だ。

そして最大の論点は、Qwenの戦略転換そのものだ。オープンソースの旗手がフラッグシップをクローズドにした。これが一時的な実験なのか、今後のデフォルトになるのかで、オープンモデルのエコシステム全体に影響がある。

コーディングベンチマーク6冠は事実。だが、そのモデルの重みは誰にも見えない。Qwenの次の一手は、この矛盾をどう解くかにかかっている。

関連記事