FlowTune Media

Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話

クローズドなフロンティアモデルの思考パターンだけを抜き出して、オープンなモデルに移植する。

フロンティアLLM vs オープンソースLLMの競争がこの2年続く中で、「蒸留(distillation)」はずっと地下水脈のように流れてきた技術だ。DeepSeek R1のディスティル版、Phi-4の推論系、Gemma周辺のコミュニティ派生——いずれも発想は似ている。強いモデルの思考プロセスを教師データとして、より小さく走りやすいモデルにそっくり真似させる。

2026年4月のHugging Face Trending Modelsで一気に首位を取ったのは、その中でも特に大胆なプロジェクトだった。コミュニティ開発者 Jackrong が公開した Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled は、名前の通り、Alibaba Qwen3.5の27BベースモデルにClaude 4.6 Opusの推論スタイルを覚え込ませたカスタムモデルだ。ライセンスはApache-2.0。Claudeを「個人のMacで動かせる形に縮めた」と呼ぶと語弊があるが、方向性としては近い。

何が起きているのか

Jackrongのアプローチはシンプルだ。

  1. Claude 4.6 Opus(または同等のOpus系モデル)に大量のプロンプトを投げ、<think> タグで構造化された推論ログを取得する
  2. 教師データとして整形する(v2では14,000件に圧縮・再訓練)
  3. Qwen3.5シリーズをSFT(Supervised Fine-Tuning)で蒸留する
  4. 出来上がったモデルをHugging Faceに複数サイズで公開する

Hugging Faceのモデルカードを読むと、27Bの初期版はChain-of-Thought(CoT)の構造ごと模倣させる路線だったとわかる。Claudeが<think>タグ内で「問題を分解 → 仮説立案 → 検証 → 結論」の順に段階的に考えるパターンを、そのままQwen3.5の出力挙動に焼き付けた格好だ。

v2では、この方向性を一歩進めている。推論を簡潔にする方向の再訓練だ。Qwen3.5は素の状態だと、単純な質問にも過剰に遷移接続詞を挟んで冗長に考えてしまう癖がある。v2ではClaude Opus 4.6由来のサンプルを使って「短く、再利用しやすい思考パターン」を叩き込み、生成速度とコストを下げつつ、絶対的な精度はむしろ上げたとされている。

コミュニティのベンチマークでは、ツールコール(tool calling)能力で27B蒸留版だけが安定した性能を示した、という報告も出ている。小さなサイズの蒸留版はツール使用で崩れやすく、27B以上でようやく「Claudeっぽく道具を使える」のがこの研究の現在地に見える。

何種類出ているのか、どれを落とすべきか

Jackrongのコレクションページには、複数サイズのバリアントがずらりと並ぶ。把握しておきたい軸は3つある。

1. パラメータ数のライン

2B、4B、9B、27B、そしてMoE系の 35B-A3B(アクティブパラメータ3B)まで用意されている。35B-A3Bはメモリ使用量に対して推論コストが低いMoE構造で、Mac Studioのような大容量統合メモリ環境と相性がいい。

2. v1 / v2

v1は長文CoTの忠実な模倣、v2は「短く濃く」方向の再訓練。日常用途で使うなら、体感的にはv2のほうがテンポよく動くはず。ただしv1のほうが思考ログ自体を読み物として楽しみやすいので、デバッグや思考過程の検証用途には v1 にまだ価値がある。

3. 量子化フォーマット

各サイズにGGUF(llama.cpp / Ollama系)とMLX(Apple Silicon専用)がミラーされている。特に mlx-community/Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit はApple Silicon界隈で「Mac 1台でOpus風の思考が動く」として受けており、36GB RAMのMacBook Proでも27B 4bit版を動かせる。Unsloth経由のGGUFポートも出ており、ダウンロード数は急増中だ。

ざっくりした目安として、

  • MacBook Pro 36GB: 9B〜27B 4bit(MLX推奨)
  • MacBook Pro 64GB以上: 27B 8bit または 35B-A3B
  • RTX 4090 / 5090 クラス: 27B GGUF Q5以上
  • クラウドGPU(A100/H100): 35B-A3Bをフル精度、またはvLLMでサーブ

NVIDIA DGX SparkユーザーからはvLLMで動かす方法の質問も飛んでおり、エンタープライズ寄りの検証も動き始めている。

なぜ「Claudeの思考」を移植する意味があるのか

ここが率直に面白いポイントだ。単に「強いモデルの出力を真似させる」だけなら、これまでも何度も試されてきた。Jackrongの取り組みが注目を集めているのは、Claude Opus 4.6の思考構造そのものが模倣対象になっている点にある。

Claude 4.6 Opusは、思考を「問題の分解」「仮説の生成」「検証ステップ」「最終結論」という、言わば人間のアナリストが使うのと似た型にきれいにはめ込んで出力する癖がある。この型は、複雑な数学・コーディング・論理パズルで効果を発揮しやすい。逆に言えば、他のLLMが同じ問題で崩れるのは、この「型」がないからだ。

Jackrongのモデルは、その型を27Bサイズに押し込んだ。すると何が起きるか。ユーザーが問題を投げると、27Bモデルが <think> タグ内でClaude風に問題を分解し、仮説を立て、検証し、答えを出す。推論スタイルだけが移植されていて、知識量や言語理解能力はあくまでQwen3.5ベースのものだ。つまりClaudeそのものではないが、Claudeの「考え方の骨格」を借りた独立モデルとしてローカルで走らせることができる。

地味にこれは、個人開発者レベルでもかなり大きな意味を持つ。Claude APIを叩き続ける予算がないプロジェクト、プロンプトインジェクション経由のリーク懸念で社内データをクラウドに出せないチーム、そもそも離島や機密区画でオフライン稼働が前提の現場——そういった場面で「Opus風に考えてくれるローカルモデル」の価値は、素直に高い。

使ってみて感じる限界

と、ここまでポジティブに書いたが、素直に触ると限界も見える。

ベースの知識は27B相当。Claude 4.6 Opusが持っているであろう膨大な事前知識のすべてを継承しているわけではない。最新のライブラリの細かい挙動を聞くと、普通に知らない。思考の型は似ていても、参照データは27B分しかない、ということだ。

長文出力では疲れやすい。v2で改善されたとはいえ、32kトークンを超えるような長文推論では、途中でフォーマットが崩れることがある。Claude本家が200k以上を自然にさばけるのとは、まだ実用面で開きがある。

日本語はClaudeほど滑らかではない。Qwen3.5の日本語能力は高いほうだが、Claude 4.6 Opusの日本語自然さに比べると、ところどころ翻訳調が残る。特にニュアンスの強いコピーライティングや、日本市場特化の法律・業務知識では違和感が出る。

ライセンスは注意深く。モデル本体はApache-2.0だが、教師データがClaude Opus由来であるため、Anthropic利用規約との関係で商用利用時にグレーゾーンが残る。現時点では「個人利用・研究用途では問題なし、商用前に弁護士に確認」というのが安全側の立場だろう。

この流れが次にやってくること

Jackrongのような取り組みが首位を取ったことが何を意味するかと言えば、フロンティアLLMの「思考の型」がオープンコミュニティに流出しやすくなったという現実だ。モデルのパラメータを盗まなくても、十分な数のCoT出力を集めればスタイルは模倣できる。AnthropicがFrontier Model Forum経由で中国の模倣を警戒しているのも、蒸留経由の流出を抑えたい文脈の一部と考えると筋が通る。

同時に、この流れは個人開発者にとってはチャンスでもある。「Opus風に考えてくれる27Bモデル」をMac 1台で常時稼働させ、それをローカルエージェントのバックエンドに据える、というスタックは今の技術で実現可能だ。Claude Code Auto Modeのような新しいワークフローがある一方で、「そもそもAPIを叩かずにローカルで完結したい」層にとっては、こちらが希望の星になる可能性がある。

Jackrongのモデルは、まだ実験作だ。バグもあるし、ベンチマークの偏りもある。でも、「Claudeの思考をオープンに焼く」という方向性を現実に動くコードとモデルで示してみせた、という点で、2026年のOSS-LLMシーンの一つのマイルストーンになったと見ていい。

ダウンロード可能な全バリアントはJackrongのHugging Faceコレクションから辿れる。Mac派なら mlx-community/Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit を、Linux/NVIDIA派なら Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF のQ5_K_M以上を、まず試してみるのがいい。

関連記事