FlowTune Media

パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか

2026年4月、オープンウェイトAIモデルの勢力図が一気に動いた。

Qwen 3.6 vs Gemma 4

Alibaba Qwenチームが4月14日に公開したQwen3.6-35B-A3Bと、Googleが4月2日にリリースしたGemma 4-31B。どちらもApache 2.0(Qwen)またはオープンライセンス(Gemma)で商用利用可能。ローカルで動かせて、エージェント的なコーディングタスクに強い。

似たようなサイズ帯で、同じ月にリリースされた2つのモデル。開発者にとって「で、どっちを使えばいいの?」は避けられない問い。

この記事では、アーキテクチャの思想、ベンチマーク、実行環境、ライセンスの4軸で両者を並べて、用途別の判断材料を整理する。

設計思想がまるで違う

まず押さえておきたいのは、Qwen3.6-35B-A3BとGemma 4-31Bは「同サイズ帯のライバル」に見えて、設計のアプローチが根本的に異なるという点。

Qwen3.6-35B-A3BはSparse Mixture-of-Experts(MoE)モデル。総パラメータ35Bのうち、推論時にアクティブになるのはわずか3B。つまりパラメータの約91%は「待機」していて、トークンごとに必要なエキスパートだけが起動する。35Bぶんの知識を持ちながら、推論コストは3Bモデル並みという構造。

Gemma 4-31BはDense(密結合)トランスフォーマー。31Bのパラメータが毎トークン、すべて稼働する。Shared KVキャッシュやDual RoPEといった効率化技術を入れてはいるが、「全弾フル稼働」の基本構造は変わらない。

この違いが、後述するベンチマークやVRAM消費の差に直結する。

ベンチマーク比較: コーディングと推論で明暗が分かれる

ベンチマーク Qwen3.6-35B-A3B Gemma 4-31B
SWE-bench Verified 73.4% 52.0% +21.4
SWE-bench Pro 49.5% 35.7% +13.8
Terminal-Bench 2.0 51.5 42.9 +8.6
LiveCodeBench v6 68.1% 80.0% -11.9
MMLU Pro 78.3% 85.2% -6.9
GPQA Diamond 71.8% 84.3% -12.5
AIME 2026 72.0% 89.2% -17.2

パターンは明確。

実世界のソフトウェアエンジニアリングタスク(SWE-bench系、Terminal-Bench)ではQwen3.6が圧勝。特にSWE-bench Verifiedの21ポイント差は、同サイズ帯では破格の開き。リポジトリ全体を読んでバグを直す、テストを書く、ファイルをまたいでリファクタリングする — こうした「エージェント的なコーディング」でQwen3.6は明らかに強い。

一方でアカデミックな推論・数学・科学系ベンチマーク(AIME、GPQA、MMLU Pro)ではGemma 4が大差をつける。LiveCodeBenchの競プロ的なコーディング問題でもGemma 4が上回っている。

正直に言えば、これは「どちらが上か」ではなく「何に使うか」の問題。

VRAM消費と実行環境

MoEの恩恵は推論速度とVRAMに直結する。

Qwen3.6-35B-A3Bは3Bアクティブパラメータのおかげで、量子化なしでも24GB VRAM(RTX 4090クラス)で動作する報告がある。Q4量子化なら16GBでも現実的。

Gemma 4-31BはDenseなので、フル精度では60GB以上。Q4量子化でも20GB前後が必要。RTX 4090ならギリギリ、M4 Max(128GB)なら余裕だが、エントリーGPUでは厳しい。

デプロイの選択肢も差がある。Qwen3.6はvLLM、SGLang、KTransformers、Transformersに公式ガイドがある。Gemma 4はvLLMとOllamaが主要な選択肢で、Google AIcoreを使えばAndroidデバイス上でNano版が動く。

ライセンス: 実は細かい違いがある

Qwen3.6-35B-A3BはApache 2.0。商用利用、改変、再配布に制限なし。最もシンプルで自由度の高いライセンス。

Gemma 4はGemma Terms of Use。商用利用は可能だが、MAU(月間アクティブユーザー)が一定規模を超える場合にGoogleへの通知義務がある。また、モデルの出力をGemmaブランドとして再配布する場合の制限もある。Apache 2.0と比べるとやや複雑で、法務チェックが一手間増える。

スタートアップやOSSプロジェクトがフォークして独自モデルを派生させたい場合、Qwen3.6のApache 2.0のほうがシンプルに動ける。

マルチモーダル対応

両モデルともテキストと画像の入力に対応している。ただし方向性が異なる。

Gemma 4はGoogleのSigLIPビジョンエンコーダを統合し、画像理解に力を入れている。Gemma 4-31Bはチャートやグラフの読み取り、UIスクリーンショットの解析などで高い精度を出す。

Qwen3.6-35B-A3Bもマルチモーダル対応だが、重点はコーディングとテキスト推論。画像入力は「あると便利」な補助機能という位置づけ。

どちらを選ぶべきか — 用途別ガイド

Qwen3.6-35B-A3Bを選ぶべき場面:

  • AIコーディングエージェントのバックエンド(SWE-bench系タスク)
  • ローカル環境でコスト重視のデプロイ(3Bアクティブの軽さ)
  • Apache 2.0が必要なOSSプロジェクト・商用派生モデル
  • 100万トークンの長いコンテキストが必要な場合(YaRN拡張で対応)

Gemma 4-31Bを選ぶべき場面:

  • 数学・科学・推論が中心の研究用途
  • 競プロ的なアルゴリズム問題の解決
  • 画像理解・チャート解析が重要なマルチモーダルアプリ
  • Googleエコシステム(Android AIcore、Vertex AI)との統合
  • 256Kコンテキストで十分な場合

個人的な所感

筆者の結論を正直に言えば、2026年4月時点で「ローカルAIコーディングエージェント」を組むなら、Qwen3.6-35B-A3Bが最有力。SWE-benchでの21ポイント差は、実務的なコーディング能力の差としてかなり大きい。しかもアクティブパラメータ3Bの軽さは、個人開発者のGPUでも動かせるという民主化の意味を持つ。

ただし万能ではない。数学オリンピック級の推論や、学術的な質問応答では明らかにGemma 4が強い。用途がはっきりしているなら、ベンチマーク表を見て素直にスコアが高い方を選べばいい。

もう一つ面白いのは、この2つのモデルが示す「オープンAIの多極化」という流れ。中国(Alibaba)とアメリカ(Google)がほぼ同時期に、同じサイズ帯で、全く違う設計思想のモデルを公開している。競争が激しいほど、開発者の選択肢は豊かになる。

2026年の後半にはQwen4やGemma 5が出てくるかもしれない。だが今この瞬間、手元のGPUで最高のエージェント型コーディングを試したいなら、Qwen3.6-35B-A3Bを動かしてみる価値がある。

関連記事