GPU1枚でClaude Opus 4.5と並ぶ — Qwen3.6-27Bという「密モデル」の衝撃

27Bのモデルが、397Bを超えた。
4月22日、Alibaba QwenチームがQwen3.6-27BをApache 2.0ライセンスで公開した。27億ではなく270億パラメータ。しかも密(dense)モデル、つまり推論時に全パラメータがフルに稼働する。MoE(Mixture of Experts)のように一部だけ活性化するのではなく、27Bのすべてが毎回動く。
それでいて、同じQwen3.6ファミリーの397BパラメータMoEモデル(Qwen3.6-Plus)をSkillsBenchで大幅に上回り、Claude Opus 4.5やClaude Sonnet 4.6と同等のコーディング性能を叩き出している。
公開からわずか2日で、HuggingFaceには78もの量子化バージョンが並び、Cloudflare Workers AIが即日統合を発表。コミュニティの反応速度が、このモデルへの期待を物語っている。
「密」であることの意味
ここ1年、フロンティアモデルの主流はMoEだった。DeepSeek V4は1.6兆パラメータの49Bアクティブ、Qwen3.6-Plusは397Bの35Bアクティブ。総パラメータ数を誇示しつつ、実際に動くのはその一部。効率的ではあるが、ルーティングの複雑さやメモリ効率の面で扱いにくさもある。
Qwen3.6-27Bは真逆のアプローチを取った。27Bの全パラメータが毎トークンで稼働する。MoEのルーティングオーバーヘッドがなく、推論パイプラインがシンプルになる。量子化との相性が良く、vLLM、SGLang、llama.cpp、Ollamaなど主要な推論エンジンすべてで即座に動く。
27Bという数字も絶妙だ。RTX 4090(24GB VRAM)でINT4量子化なら快適に推論でき、30トークン/秒以上が出る。RTX 3090でも動作報告がある。GPU1枚で動くフロンティア級モデルというのは、正直、少し前まで想像しにくかった。
ベンチマークの読み方
| ベンチマーク | Qwen3.6-27B | Claude Opus 4.6 | Claude 4.5 Opus | Qwen3.6-Plus (397B MoE) |
|---|---|---|---|---|
| SWE-bench Verified | 77.2% | 80.8% | — | — |
| SkillsBench | 48.2% | — | — | 30.0% |
| Terminal-Bench 2.0 | 59.3% | — | 59.3% | — |
| Claw-Eval Pass³ | 60.6% | — | 59.6% | — |
数字だけ見ると「Claude Opus 4.6にはまだ及ばない」と思うかもしれないが、注目すべきはSWE-bench Verifiedの77.2%だ。Claude Opus 4.6の80.8%との差はわずか3.6ポイント。これを27Bパラメータの無料モデルが、GPU1枚で達成している。
SkillsBenchの48.2%は397B MoEモデルの30.0%を77%も上回っている。パラメータ数が14.7分の1のモデルが、です。Terminal-Bench 2.0の59.3%に至ってはClaude 4.5 Opusと完全に同スコア。
素直にすごいと思う。
どこで使えるか
このモデルが最も活きるのは、API料金を払い続けることに疲れた開発者のワークフローだ。
たとえば、AIコーディングエージェントのバックエンドとして使う。ClineやRoo Codeのようなオープンソースのコーディングエージェントは、バックエンドのLLMを自由に差し替えられる。ここにQwen3.6-27Bを接続すれば、Claudeに月額を払わずにSWE-bench 77%級のコーディングアシスタントが手に入る。
コンテキストウィンドウは標準で262,144トークン、拡張すれば100万トークンまで対応する。リポジトリ全体を読み込ませてリファクタリングを依頼する、といった使い方も現実的だ。
もう一つの用途は、社内データを外部に出せない環境でのコード生成だ。金融・医療・防衛など、クラウドAPIにコードを送れないケースは多い。オンプレミスでフロンティア級の性能が確保できるなら、これまで「AI導入不可」だった領域が一気に開ける可能性がある。
気をつけたいこと
当然、弱点もある。
まず、27Bの密モデルは推論速度でMoEに劣る場合がある。同じ性能帯のMoEモデル(Qwen3.6-35B-A3B、アクティブ3B)と比較すると、VRAMは多く消費し、スループットも低い。速度とコストを最優先するなら、MoE版のほうが合理的だ。
次に、マルチモーダルだが画像・動画の理解精度はまだ発展途上だ。テキストとコーディングでは一級品だが、複雑な図表の解析やUI理解ではClaude Opus 4.6に差をつけられる場面がある。
そして、Apache 2.0とはいえ中国企業のモデルだ。Huaweiチップ上で学習されているかどうかは公開されていないが、一部の企業ではサプライチェーンポリシーの観点から採用を見送る可能性がある。技術的な制約ではなく、ガバナンスの問題だ。
ローカルLLMの到達点
Qwen3.6-27Bは、ローカルLLMが実用レベルのフロンティアに到達したことを示すモデルだと思う。
1年前、GPU1枚で動く最高性能のオープンモデルは、Claude Haiku相当だった。今、それがClaude Opus 4.5と並んでいる。このペースが続けば、半年後にはGPU1枚でOpus 4.7級の性能が手に入るかもしれない。
ただし、ベンチマークの数字と実際の使い心地は別物だ。特にエージェント的なタスク — 長期的な計画立案、複数ツールの連携、失敗からの回復 — では、パラメータ数の差が如実に出る。「Claude Opus級」と呼ぶのはベンチマーク上の話であって、あらゆるタスクで置き換え可能だとは思わないほうがいい。
それでも、27Bでここまで来たという事実は動かない。フロンティアモデルがクラウドAPIの独占物だった時代は、静かに終わりつつある。
関連記事
パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか
Qwen3.6-35B-A3BとGemma 4-31Bを主要ベンチマーク・VRAM消費・ライセンスで比較。用途別の選び方を整理した。
Qwen 3.5完全ガイド — 9BモデルがQwen3-30Bを超える、Alibabaの逆襲
Alibaba Qwen 3.5の全7モデルを徹底解説。9Bが30B超えの衝撃的なパラメータ効率、Ollamaでのローカル実行手順、GPT-5.2との性能比較がわかる。
Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話
Jackrongが公開したQwen3.5-27B Claude-4.6-Opus-Reasoning-Distilledが、Hugging Face Trending1位に。Apache-2.0ライセンスでClaude風の<think>推論をローカル再現。v1/v2の違いとMLX/GGUF展開を整理する。