パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか

2026年4月、オープンウェイトAIモデルの勢力図が一気に動いた。

Qwen 3.6 vs Gemma 4

Alibaba Qwenチームが4月14日に公開したQwen3.6-35B-A3Bと、Googleが4月2日にリリースしたGemma 4-31B。どちらもApache 2.0（Qwen）またはオープンライセンス（Gemma）で商用利用可能。ローカルで動かせて、エージェント的なコーディングタスクに強い。

似たようなサイズ帯で、同じ月にリリースされた2つのモデル。開発者にとって「で、どっちを使えばいいの？」は避けられない問い。

この記事では、アーキテクチャの思想、ベンチマーク、実行環境、ライセンスの4軸で両者を並べて、用途別の判断材料を整理する。

設計思想がまるで違う

まず押さえておきたいのは、Qwen3.6-35B-A3BとGemma 4-31Bは「同サイズ帯のライバル」に見えて、設計のアプローチが根本的に異なるという点。

Qwen3.6-35B-A3BはSparse Mixture-of-Experts（MoE）モデル。総パラメータ35Bのうち、推論時にアクティブになるのはわずか3B。つまりパラメータの約91%は「待機」していて、トークンごとに必要なエキスパートだけが起動する。35Bぶんの知識を持ちながら、推論コストは3Bモデル並みという構造。

Gemma 4-31BはDense（密結合）トランスフォーマー。31Bのパラメータが毎トークン、すべて稼働する。Shared KVキャッシュやDual RoPEといった効率化技術を入れてはいるが、「全弾フル稼働」の基本構造は変わらない。

この違いが、後述するベンチマークやVRAM消費の差に直結する。

ベンチマーク比較: コーディングと推論で明暗が分かれる

ベンチマーク	Qwen3.6-35B-A3B	Gemma 4-31B	差
SWE-bench Verified	73.4%	52.0%	+21.4
SWE-bench Pro	49.5%	35.7%	+13.8
Terminal-Bench 2.0	51.5	42.9	+8.6
LiveCodeBench v6	68.1%	80.0%	-11.9
MMLU Pro	78.3%	85.2%	-6.9
GPQA Diamond	71.8%	84.3%	-12.5
AIME 2026	72.0%	89.2%	-17.2

パターンは明確。

実世界のソフトウェアエンジニアリングタスク（SWE-bench系、Terminal-Bench）ではQwen3.6が圧勝。特にSWE-bench Verifiedの21ポイント差は、同サイズ帯では破格の開き。リポジトリ全体を読んでバグを直す、テストを書く、ファイルをまたいでリファクタリングする — こうした「エージェント的なコーディング」でQwen3.6は明らかに強い。

一方でアカデミックな推論・数学・科学系ベンチマーク（AIME、GPQA、MMLU Pro）ではGemma 4が大差をつける。LiveCodeBenchの競プロ的なコーディング問題でもGemma 4が上回っている。

正直に言えば、これは「どちらが上か」ではなく「何に使うか」の問題。

VRAM消費と実行環境

MoEの恩恵は推論速度とVRAMに直結する。

Qwen3.6-35B-A3Bは3Bアクティブパラメータのおかげで、量子化なしでも24GB VRAM（RTX 4090クラス）で動作する報告がある。Q4量子化なら16GBでも現実的。

Gemma 4-31BはDenseなので、フル精度では60GB以上。Q4量子化でも20GB前後が必要。RTX 4090ならギリギリ、M4 Max（128GB）なら余裕だが、エントリーGPUでは厳しい。

デプロイの選択肢も差がある。Qwen3.6はvLLM、SGLang、KTransformers、Transformersに公式ガイドがある。Gemma 4はvLLMとOllamaが主要な選択肢で、Google AIcoreを使えばAndroidデバイス上でNano版が動く。

ライセンス: 実は細かい違いがある

Qwen3.6-35B-A3BはApache 2.0。商用利用、改変、再配布に制限なし。最もシンプルで自由度の高いライセンス。

Gemma 4はGemma Terms of Use。商用利用は可能だが、MAU（月間アクティブユーザー）が一定規模を超える場合にGoogleへの通知義務がある。また、モデルの出力をGemmaブランドとして再配布する場合の制限もある。Apache 2.0と比べるとやや複雑で、法務チェックが一手間増える。

スタートアップやOSSプロジェクトがフォークして独自モデルを派生させたい場合、Qwen3.6のApache 2.0のほうがシンプルに動ける。

マルチモーダル対応

両モデルともテキストと画像の入力に対応している。ただし方向性が異なる。

Gemma 4はGoogleのSigLIPビジョンエンコーダを統合し、画像理解に力を入れている。Gemma 4-31Bはチャートやグラフの読み取り、UIスクリーンショットの解析などで高い精度を出す。

Qwen3.6-35B-A3Bもマルチモーダル対応だが、重点はコーディングとテキスト推論。画像入力は「あると便利」な補助機能という位置づけ。

どちらを選ぶべきか — 用途別ガイド

Qwen3.6-35B-A3Bを選ぶべき場面:

AIコーディングエージェントのバックエンド（SWE-bench系タスク）
ローカル環境でコスト重視のデプロイ（3Bアクティブの軽さ）
Apache 2.0が必要なOSSプロジェクト・商用派生モデル
100万トークンの長いコンテキストが必要な場合（YaRN拡張で対応）

Gemma 4-31Bを選ぶべき場面:

数学・科学・推論が中心の研究用途
競プロ的なアルゴリズム問題の解決
画像理解・チャート解析が重要なマルチモーダルアプリ
Googleエコシステム（Android AIcore、Vertex AI）との統合
256Kコンテキストで十分な場合

個人的な所感

筆者の結論を正直に言えば、2026年4月時点で「ローカルAIコーディングエージェント」を組むなら、Qwen3.6-35B-A3Bが最有力。SWE-benchでの21ポイント差は、実務的なコーディング能力の差としてかなり大きい。しかもアクティブパラメータ3Bの軽さは、個人開発者のGPUでも動かせるという民主化の意味を持つ。

ただし万能ではない。数学オリンピック級の推論や、学術的な質問応答では明らかにGemma 4が強い。用途がはっきりしているなら、ベンチマーク表を見て素直にスコアが高い方を選べばいい。

もう一つ面白いのは、この2つのモデルが示す「オープンAIの多極化」という流れ。中国（Alibaba）とアメリカ（Google）がほぼ同時期に、同じサイズ帯で、全く違う設計思想のモデルを公開している。競争が激しいほど、開発者の選択肢は豊かになる。

2026年の後半にはQwen4やGemma 5が出てくるかもしれない。だが今この瞬間、手元のGPUで最高のエージェント型コーディングを試したいなら、Qwen3.6-35B-A3Bを動かしてみる価値がある。

パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか

設計思想がまるで違う

ベンチマーク比較: コーディングと推論で明暗が分かれる

VRAM消費と実行環境

ライセンス: 実は細かい違いがある

マルチモーダル対応

どちらを選ぶべきか — 用途別ガイド

個人的な所感

関連記事

GPU1枚でClaude Opus 4.5と並ぶ — Qwen3.6-27Bという「密モデル」の衝撃

35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験

Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話