パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか
2026年4月、オープンウェイトAIモデルの勢力図が一気に動いた。

Alibaba Qwenチームが4月14日に公開したQwen3.6-35B-A3Bと、Googleが4月2日にリリースしたGemma 4-31B。どちらもApache 2.0(Qwen)またはオープンライセンス(Gemma)で商用利用可能。ローカルで動かせて、エージェント的なコーディングタスクに強い。
似たようなサイズ帯で、同じ月にリリースされた2つのモデル。開発者にとって「で、どっちを使えばいいの?」は避けられない問い。
この記事では、アーキテクチャの思想、ベンチマーク、実行環境、ライセンスの4軸で両者を並べて、用途別の判断材料を整理する。
設計思想がまるで違う
まず押さえておきたいのは、Qwen3.6-35B-A3BとGemma 4-31Bは「同サイズ帯のライバル」に見えて、設計のアプローチが根本的に異なるという点。
Qwen3.6-35B-A3BはSparse Mixture-of-Experts(MoE)モデル。総パラメータ35Bのうち、推論時にアクティブになるのはわずか3B。つまりパラメータの約91%は「待機」していて、トークンごとに必要なエキスパートだけが起動する。35Bぶんの知識を持ちながら、推論コストは3Bモデル並みという構造。
Gemma 4-31BはDense(密結合)トランスフォーマー。31Bのパラメータが毎トークン、すべて稼働する。Shared KVキャッシュやDual RoPEといった効率化技術を入れてはいるが、「全弾フル稼働」の基本構造は変わらない。
この違いが、後述するベンチマークやVRAM消費の差に直結する。
ベンチマーク比較: コーディングと推論で明暗が分かれる
| ベンチマーク | Qwen3.6-35B-A3B | Gemma 4-31B | 差 |
|---|---|---|---|
| SWE-bench Verified | 73.4% | 52.0% | +21.4 |
| SWE-bench Pro | 49.5% | 35.7% | +13.8 |
| Terminal-Bench 2.0 | 51.5 | 42.9 | +8.6 |
| LiveCodeBench v6 | 68.1% | 80.0% | -11.9 |
| MMLU Pro | 78.3% | 85.2% | -6.9 |
| GPQA Diamond | 71.8% | 84.3% | -12.5 |
| AIME 2026 | 72.0% | 89.2% | -17.2 |
パターンは明確。
実世界のソフトウェアエンジニアリングタスク(SWE-bench系、Terminal-Bench)ではQwen3.6が圧勝。特にSWE-bench Verifiedの21ポイント差は、同サイズ帯では破格の開き。リポジトリ全体を読んでバグを直す、テストを書く、ファイルをまたいでリファクタリングする — こうした「エージェント的なコーディング」でQwen3.6は明らかに強い。
一方でアカデミックな推論・数学・科学系ベンチマーク(AIME、GPQA、MMLU Pro)ではGemma 4が大差をつける。LiveCodeBenchの競プロ的なコーディング問題でもGemma 4が上回っている。
正直に言えば、これは「どちらが上か」ではなく「何に使うか」の問題。
VRAM消費と実行環境
MoEの恩恵は推論速度とVRAMに直結する。
Qwen3.6-35B-A3Bは3Bアクティブパラメータのおかげで、量子化なしでも24GB VRAM(RTX 4090クラス)で動作する報告がある。Q4量子化なら16GBでも現実的。
Gemma 4-31BはDenseなので、フル精度では60GB以上。Q4量子化でも20GB前後が必要。RTX 4090ならギリギリ、M4 Max(128GB)なら余裕だが、エントリーGPUでは厳しい。
デプロイの選択肢も差がある。Qwen3.6はvLLM、SGLang、KTransformers、Transformersに公式ガイドがある。Gemma 4はvLLMとOllamaが主要な選択肢で、Google AIcoreを使えばAndroidデバイス上でNano版が動く。
ライセンス: 実は細かい違いがある
Qwen3.6-35B-A3BはApache 2.0。商用利用、改変、再配布に制限なし。最もシンプルで自由度の高いライセンス。
Gemma 4はGemma Terms of Use。商用利用は可能だが、MAU(月間アクティブユーザー)が一定規模を超える場合にGoogleへの通知義務がある。また、モデルの出力をGemmaブランドとして再配布する場合の制限もある。Apache 2.0と比べるとやや複雑で、法務チェックが一手間増える。
スタートアップやOSSプロジェクトがフォークして独自モデルを派生させたい場合、Qwen3.6のApache 2.0のほうがシンプルに動ける。
マルチモーダル対応
両モデルともテキストと画像の入力に対応している。ただし方向性が異なる。
Gemma 4はGoogleのSigLIPビジョンエンコーダを統合し、画像理解に力を入れている。Gemma 4-31Bはチャートやグラフの読み取り、UIスクリーンショットの解析などで高い精度を出す。
Qwen3.6-35B-A3Bもマルチモーダル対応だが、重点はコーディングとテキスト推論。画像入力は「あると便利」な補助機能という位置づけ。
どちらを選ぶべきか — 用途別ガイド
Qwen3.6-35B-A3Bを選ぶべき場面:
- AIコーディングエージェントのバックエンド(SWE-bench系タスク)
- ローカル環境でコスト重視のデプロイ(3Bアクティブの軽さ)
- Apache 2.0が必要なOSSプロジェクト・商用派生モデル
- 100万トークンの長いコンテキストが必要な場合(YaRN拡張で対応)
Gemma 4-31Bを選ぶべき場面:
- 数学・科学・推論が中心の研究用途
- 競プロ的なアルゴリズム問題の解決
- 画像理解・チャート解析が重要なマルチモーダルアプリ
- Googleエコシステム(Android AIcore、Vertex AI)との統合
- 256Kコンテキストで十分な場合
個人的な所感
筆者の結論を正直に言えば、2026年4月時点で「ローカルAIコーディングエージェント」を組むなら、Qwen3.6-35B-A3Bが最有力。SWE-benchでの21ポイント差は、実務的なコーディング能力の差としてかなり大きい。しかもアクティブパラメータ3Bの軽さは、個人開発者のGPUでも動かせるという民主化の意味を持つ。
ただし万能ではない。数学オリンピック級の推論や、学術的な質問応答では明らかにGemma 4が強い。用途がはっきりしているなら、ベンチマーク表を見て素直にスコアが高い方を選べばいい。
もう一つ面白いのは、この2つのモデルが示す「オープンAIの多極化」という流れ。中国(Alibaba)とアメリカ(Google)がほぼ同時期に、同じサイズ帯で、全く違う設計思想のモデルを公開している。競争が激しいほど、開発者の選択肢は豊かになる。
2026年の後半にはQwen4やGemma 5が出てくるかもしれない。だが今この瞬間、手元のGPUで最高のエージェント型コーディングを試したいなら、Qwen3.6-35B-A3Bを動かしてみる価値がある。
関連記事
Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話
Jackrongが公開したQwen3.5-27B Claude-4.6-Opus-Reasoning-Distilledが、Hugging Face Trending1位に。Apache-2.0ライセンスでClaude風の<think>推論をローカル再現。v1/v2の違いとMLX/GGUF展開を整理する。
Qwen 3.6 Plus — 無料で100万トークン、Opus級ベンチマーク。代償はデータだけか
Alibaba最新のQwen 3.6 Plusは1Mコンテキスト、Claude Opus比18分の1の価格、OpenRouterで無料利用可。ベンチマーク、速度、データ収集の実態を検証する。
Qwen 3.5完全ガイド — 9BモデルがQwen3-30Bを超える、Alibabaの逆襲
Alibaba Qwen 3.5の全7モデルを徹底解説。9Bが30B超えの衝撃的なパラメータ効率、Ollamaでのローカル実行手順、GPT-5.2との性能比較がわかる。