Qwen 3.5完全ガイド — 9BモデルがQwen3-30Bを超える、Alibabaの逆襲

「パラメータ数が3倍のモデルを、小型モデルが追い越した」。
普通なら眉唾ものの話だが、Alibaba CloudのAIチーム「Qwen」が2026年2月にリリースしたQwen 3.5は、実際にそれをやってのけた。9Bパラメータモデルが、前世代Qwen3の30Bモデルの性能を上回る。しかもApache 2.0ライセンスのフルオープンソース。ローカルPCでも動く。
オープンモデルの勢力図が、また塗り替わろうとしている。
Qwen 3.5とは何か
Qwen 3.5は、中国Alibaba Cloudの研究チームが開発した大規模言語モデルシリーズだ。テキスト、画像、音声、動画といった複数のモダリティ(入出力の形式)を統合的に扱えるマルチモーダルモデルとしてリリースされている。
最大の技術的特徴は、Gated Delta Networks(線形アテンションの効率性を高めるアーキテクチャ)とSparse MoE(Mixture of Experts、推論時に一部のパラメータだけを活性化させる仕組み)を組み合わせたハイブリッド設計にある。簡単に言えば、巨大な知識の引き出しを持ちながら、実際の処理は軽量に済むということだ。
コンテキストウィンドウは256Kトークン。日本語を含む201の言語と方言に対応しており、多言語性能においてはオープンモデルの中でもトップクラスだ。
モデルラインアップ — 7段階のサイズ展開
Qwen 3.5は2026年2月から段階的にリリースされ、現在7つのモデルが利用可能だ。
フラッグシップ
397B-A17B MoE(2月16日リリース) — 総パラメータ数397Bのうち、1回の推論でアクティブになるのは17B。フルスペックのフラッグシップモデルで、科学推論やコーディングタスクでGPT-5.2を上回るベンチマークを記録している。クラウド環境向け。
122B-A10B MoE(2月24日リリース) — アクティブ10Bで動作する中型MoEモデル。フラッグシップに近い性能を、より少ない計算資源で実現する。
ミドルレンジ
35B-A3B MoE(2月24日リリース) — アクティブ3Bという軽量さで、コストパフォーマンスに優れる。エッジ寄りの用途にも対応。
27B Dense(2月24日リリース) — MoEではなくDense(全パラメータを使う)構成。Gemma 4 31Bとの直接比較で注目されるサイズ帯だ。
コンパクト
9B(3月2日リリース) — 今回のシリーズで最も衝撃を与えたモデル。前世代Qwen3-30Bを上回る性能を、わずか9Bパラメータで実現した。ローカル実行の本命。
4B(3月2日リリース) — スマホやIoTデバイスでの動作を見据えた超小型モデル。
マルチモーダル特化
Qwen3.5 Omni(3月30日リリース) — テキスト、音声、動画を統合的に処理し、リアルタイムのインタラクションに対応するネイティブマルチモーダルモデル。音声入力を直接理解し、音声で応答する「エンドツーエンド」の対話が可能だ。
主要機能 — 何ができるのか
科学推論・コーディング
Qwen 3.5のフラッグシップモデルは、数学、科学、コーディングの各ベンチマークでGPT-5.2を上回るスコアを出している。特にコーディングタスクではSWE-bench系の評価で高い成績を収めており、AIコーディングアシスタントとしての利用に十分な水準だ。
Webリサーチ・ビジュアルエージェント
単なるテキスト生成にとどまらず、Webリサーチやビジュアルエージェント(画面の内容を理解して操作を行うAI)としての能力も備える。外部ツールと連携させることで、情報収集から分析までを自律的に行えるポテンシャルがある。
256Kコンテキスト
256Kトークンのコンテキストウィンドウは、日本語換算でおよそ15万〜20万文字に相当する。書籍1冊分のテキストや大規模なコードベースをまるごと投入して処理できる。長文の翻訳、要約、コードレビューなどに向いている。
201言語対応
日本語の対応は良好だ。中国発のモデルは日本語が弱いという先入観がある人もいるかもしれないが、Qwen 3.5は201の言語・方言をカバーしており、日本語での自然な対話が可能とされている。もちろん、英語や中国語と同等かどうかは用途ごとに検証が必要だが、実用レベルには達している。
性能比較 — GPT-5.2を超えたという話
ベンチマークスコアを鵜呑みにするのは危険だが、公開されている数字は確認しておく価値がある。
Qwen 3.5の397B-A17Bフラッグシップモデルは、科学推論、コーディング、Webリサーチ、ビジュアルエージェントの各領域でGPT-5.2を上回るスコアを記録したと発表されている。
しかし、ここで注目すべきは小型モデルの方だ。9Bモデルが前世代Qwen3-30Bを超えたということは、パラメータ効率が3倍以上改善されたことを意味する。これはアーキテクチャレベルの進化であり、単にデータを増やしたり訓練を長くしたりしただけでは達成できない。Gated Delta NetworksとSparse MoEのハイブリッド設計が、パラメータあたりの性能を大幅に引き上げている。
比較対象として名前が挙がるのは、GoogleのGemma 4 31B、MetaのLlama 4シリーズ、そしてDeepSeekだ。27Bサイズ帯ではGemma 4との直接比較が特に注目されている。MMLU ProやGPQA Diamondといったベンチマークでは、Qwen 3.5がわずかにリードしているとされるが、実用面での差は用途ごとに異なる。
使い方 — Ollamaでローカル実行
Qwen 3.5の大きな魅力のひとつが、ローカルPCでの実行だ。Ollama(ローカル環境でLLMを簡単に動かすためのツール)を使えば、コマンド数行で動作する。
インストール手順
- Ollama公式サイトからOllamaをインストールする
- ターミナルで以下のコマンドを実行する
# 9Bモデル(推奨、VRAM 8GB程度で動作)
ollama run qwen3.5:9b
# 4Bモデル(軽量、VRAM 4GB程度で動作)
ollama run qwen3.5:4b
# 27Bモデル(高性能、VRAM 16GB以上推奨)
ollama run qwen3.5:27b
特に9Bモデルは、一般的なゲーミングPCのGPU(RTX 3060以上)で快適に動作する。前世代で同等の性能を得るには30Bモデルが必要だったことを考えると、ローカルLLMユーザーにとってのインパクトは大きい。
量子化(モデルの精度をわずかに犠牲にしてサイズを圧縮する手法)を適用すれば、さらに低スペックな環境でも動作可能だ。Mac(Apple Silicon)でも問題なく動く。
料金 — 完全無料で使える
Qwen 3.5はApache 2.0ライセンスのもと、完全オープンソースで公開されている。モデルのダウンロード、ローカル実行、商用利用のすべてが無料だ。
Apache 2.0は業界標準のオープンソースライセンスで、改変や再配布にも制限がない。Metaのカスタムライセンス(Llama系)とは異なり、法務確認の手間がほとんどかからない。
Alibaba Cloud経由のAPI利用も可能で、そちらは従量課金制だが、ローカル実行であれば電気代以外のコストはゼロだ。
メリット・デメリット
メリット
- パラメータ効率が圧倒的。9Bが30B超えという事実は、ローカル実行のハードルを大幅に下げる
- Apache 2.0ライセンス。商用利用、改変、再配布が自由。法務リスクが最小限
- 7段階のサイズ展開。4Bから397Bまで、用途とハードウェアに応じた選択が可能
- 256Kコンテキスト。長文処理に強い
- 201言語対応。日本語を含む多言語サポート
- Qwen3.5 Omni。音声・動画のリアルタイムマルチモーダルに対応
デメリット
- ベンチマークは自己申告。GPT-5.2超えの主張は、第三者による独立検証が進んでいない段階
- 中国発モデルの懸念。政治的に敏感なトピックでの検閲や出力バイアスの可能性は否定できない
- エコシステムの厚み。Llama系と比べると、ファインチューニング済みモデルやコミュニティリソースがまだ少ない
- 日本語品質の検証不足。201言語対応とはいえ、すべての言語で同等の品質が保証されるわけではない。実用前に自身のユースケースでの検証を推奨
- マルチモーダル(Omni)はまだ初期段階。テキストモデルほどの成熟度には達していない
まとめ — ローカルLLMの新しい基準
Qwen 3.5は、オープンモデルの競争を一段階引き上げた存在だ。
特に9Bモデルの性能は、ローカルLLMのユーザーにとって画期的と言っていい。これまで高性能なオープンモデルを動かすには高価なGPUが必要だったが、9Bで30B超えの性能が出るなら、一般的なPCでも実用レベルのAIを手元で動かせる。
Google(Gemma)、Meta(Llama)、Alibaba(Qwen)によるオープンモデル三強の争いは激化している。どれがベストかは用途次第だが、ローカル実行の手軽さとパラメータ効率を重視するなら、Qwen 3.5は現時点で最有力の選択肢のひとつだ。
まずはOllamaで9Bモデルを試してみてほしい。インストールから動作まで5分もかからない。
参考リンク
関連記事
Kimi K2.5完全ガイド -- 1兆パラメータMoEモデルが100体AIエージェントを同時に動かす
!Kimi K2.5(/images/posts/kimi-k25-moonshot-ai.jpg) エージェント100体、同時稼働。しかもオープンソース。 2026年1月27日、北京のAIスタートアップMoonshot AI(https://www.moonshot.cn/)が次世代モデル「Kimi K2.5」
Cohere Transcribeが音声認識の王座を奪った — Whisperを超えたオープンソースASRモデルの実力と限界
Whisperの天下が、終わったかもしれない。 2022年にOpenAIがWhisperをリリースして以来、音声認識の世界はWhisper一強だった。オープンソースで、精度が高く、多言語対応。研究者も開発者もスタートアップも、こぞってWhisperを自社パイプラインに組み込んだ。「音声をテキストにするならWhisp
Gemini 3.1 Ultra — 200万トークン、ライブ動画分析。Googleが本気で出した最上位モデルの全貌
!Gemini 3.1 Ultra(/images/posts/gemini-3-1-ultra-google.jpg) 200万トークンのコンテキストウィンドウ。公開されているAIモデルとしては最大だ。2026年3月、Googleが満を持してリリースしたGemini 3.1 Ultraは、「大規模コンテキスト」と