FlowTune Media

Phi-4-reasoning — Microsoftが証明した「小さくても賢い」推論モデルの実力

14Bパラメータで、数学オリンピックレベルの問題を解く。Microsoftの「Phi-4-reasoning」は、小規模言語モデル(SLM)の常識を書き換えにきた。

大規模モデルが推論能力を競い合うなか、Microsoftは真逆のアプローチを取った。モデルを小さくしたまま、推論だけを徹底的に鍛え上げる。その結果生まれたのが、OpenAIのo1-miniやo3-miniと肩を並べるベンチマークスコアを叩き出す14Bモデルだ。

Phi-4-reasoning

Phi-4-reasoningとは何か

Phi-4-reasoningは、Microsoftが開発した推論特化型の小規模言語モデルだ。ベースとなるPhi-4(14Bパラメータ)を、推論タスクに最適化された高品質データで教師ありファインチューニング(SFT)している。

ここで注目すべきは、教師データの出自だ。OpenAIのo3-miniが生成した推論チェーンを教師データとして活用している。つまり、大規模モデルの「考え方」を小さなモデルに蒸留するアプローチだ。率直に言うと、競合の出力を堂々と教師データに使うのはなかなか大胆だが、結果として効いている。Chain-of-Thought(CoT)推論を内在化させることで、モデルサイズを抑えながら高い推論能力を実現している。

加えて、強化学習(RL)でさらに磨き上げたバリエーション「Phi-4-reasoning-plus」も存在する。こちらはより多くの推論トークンを使い、精度をさらに引き上げている。

ベンチマークで見る実力

数字で語ろう。Phi-4-reasoningの推論性能は、モデルサイズを考えると驚異的だ。

数学推論では、AIME 2025(アメリカ数学オリンピック予選)で高いスコアを記録。MATH-500でも90%を超える正答率を達成している。14Bのモデルが、パラメータ数で数倍から数十倍の大型モデルに迫る水準だ。

科学推論でも強い。GPQA Diamond(大学院レベルの科学問題)やMMLU-Proといった難関ベンチマークで、同規模のオープンソースモデルを大きく上回る。DeepSeek-R1-Distill-Llama-70Bのような70Bクラスのモデルと比較しても遜色ないスコアを出している場面がある。

コーディングも守備範囲だ。LiveCodeBenchやCodeContestsといった実践的なプログラミングベンチマークでも、SLMとしてはトップクラスの性能を示している。

つまり、「数学だけ強い」のではなく、推論が必要なタスク全般で高いパフォーマンスを発揮する汎用推論モデルだ。

Phi-4-reasoning-plus — RLで磨いたもう一段上

Phi-4-reasoning-plusは、SFT後にさらに強化学習(GRPO: Group Relative Policy Optimization)を適用したモデルだ。

違いは明確。推論時により多くのトークンを生成することで、複雑な問題に対してより深い思考プロセスを展開する。その分、推論速度は遅くなるが、AIME 2025やGPQAでのスコアはPhi-4-reasoningをさらに上回る。

精度を最優先するタスク(研究、数学の証明、複雑な論理パズルなど)ではplus版を選び、レスポンス速度とのバランスが重要な場面では通常版を使う。そういう使い分けが想定されている。

Vision版 — 画像も「考える」15Bモデル

Phi-4-reasoning-visionは、視覚情報を含む推論に対応した15Bパラメータのマルチモーダルモデルだ。SigLIP-2視覚エンコーダを搭載し、画像内のグラフ、表、図形、数式を理解した上で推論できる。

たとえば、幾何学の図形問題の画像を入力すると、図形を認識し、必要な定理を適用して解答を導き出す。MathVistaやOlympiadBenchといったマルチモーダル推論ベンチマークでも強い結果を出している。

教育現場での活用、技術文書の理解、科学論文のグラフ解釈など、「見て考える」タスクでの実用性は高い。

ローカルで動かせるという強み

Phi-4-reasoningが注目される最大の理由の一つが、ローカル実行できるサイズ感だ。

14Bパラメータという規模は、16GBのVRAMを持つGPUがあれば量子化なしで動作する。4bit量子化すれば、8GB VRAMでも動く可能性がある。Apple Silicon搭載のMacでも、MLXやllama.cppを使えば実用的な速度で推論できる。

Hugging Faceで公開されており、MITライセンスで利用可能だ。商用利用も研究利用も制限がない。

# Hugging Faceからモデルをダウンロード
pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "microsoft/Phi-4-reasoning"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

prompt = "Solve: If x^2 + 3x - 10 = 0, find x."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

ollama経由でも利用できる。

ollama run phi4-reasoning

クラウドAPIに依存せず、手元のマシンで推論特化モデルを動かせる。プライバシーが重要なユースケースや、オフライン環境での利用にも対応できるのは大きなアドバンテージだ。

ただし、注意点もある。推論特化モデルゆえにCoTトークンを大量に生成するため、単純なQ&Aには向かない。「今日の天気は?」のような質問にも長い思考プロセスを経てから回答する可能性がある。汎用チャットボットとして使うなら、素のPhi-4のほうが適切だろう。

何に使えるのか — 実用シナリオ

教育・学習支援: 数学や科学の問題を段階的に解説させる。CoT推論を内在化しているため、「なぜそうなるか」を丁寧に説明してくれる。

コードレビュー・デバッグ: ロジックの誤りを推論的に特定し、修正案を提示する。ローカル実行できるため、社内コードをクラウドに送る必要がない。

研究・データ分析: 論文の論理構造の検証、実験データの解釈、仮説の検証支援。Vision版なら図表の読み取りも含めてカバーできる。

エッジデバイスへの展開: IoTデバイスやモバイル端末に推論能力を持たせる。14Bは「エッジで動く最大級の知性」と言えるサイズ感だ。

競合との立ち位置

SLMの推論モデルという領域で、Phi-4-reasoningの直接的な競合はいくつかある。

DeepSeek-R1-Distill系: 蒸留アプローチは似ているが、Qwen-14BやLlama-8Bベースなど複数バリエーションがある。14B同士の比較ではPhi-4-reasoningが多くのベンチマークで上回る。

Qwen3シリーズ: 推論モードを持つQwen3もSLM推論の有力候補。エコシステムの広さではQwenが強いが、推論特化の深さではPhi-4-reasoningに分がある。

OpenAI o1-mini / o3-mini: Phi-4-reasoningの教師モデルでもある。クラウドAPIのみの提供で、ローカル実行はできない。性能はo3-miniが上回る場面もあるが、ローカルで無料で動くPhi-4-reasoningのコストパフォーマンスは圧倒的だ。

試す価値があるのは誰か

正直なところ、普段の作業でChatGPTやClaudeのAPI呼び出しで十分間に合っている人には、わざわざローカルに14Bモデルを立てるモチベーションは薄いかもしれない。

このモデルが本当に刺さるのは、推論能力を必要とするパイプラインをローカルやオンプレで完結させたい開発者・研究者だ。データを外に出せない環境で数学的推論や論理検証を回したい、APIコストを気にせず大量のリクエストを処理したい——そういった具体的な制約を抱えている人にとって、14Bで70Bクラスに迫る推論性能は魅力的だ。

蒸留元のo3-miniを直接使えばいいじゃないか、という反論もあるだろう。だが、MITライセンスで手元に置けるモデルと、クラウドAPIでしか使えないモデルでは、できることの幅がまるで違う。Phi-4-reasoningの本質的な価値は、推論性能そのものよりも「その推論性能を自由に使える」という点にある。

関連記事