FlowTune Media

DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

DeepSeek V4

4月24日、DeepSeekがV4シリーズを正式にローンチした。

2週間前、筆者は事前情報をもとに記事を書いた。1兆パラメータ、370Bアクティブ、$0.30/Mトークン。蓋を開けてみると、数字がことごとく違う。1.6兆パラメータ、49Bアクティブ、入力$0.14〜$1.74。予想より巨大で、予想より効率的で、予想より安い。

Bloombergが即日報道し、HuggingFaceにはApache 2.0でウェイトが公開された。Chatbot Arenaではすでにトップ争いに加わっている。

V4 ProとV4 Flash — 2つのモデル、2つの戦略

DeepSeekは今回、1つのモデルではなく2つのバリアントを同時に出してきた。

V4-Pro は1.6兆パラメータのMoE(Mixture of Experts)で、1回の推論で実際に動くのは49B。前世代V3.2からアクティブパラメータを大幅に削りながら、性能は上回っている。33兆トークンで事前学習済み、コンテキストウィンドウは100万トークン、最大出力は384Kトークン。

V4-Flash は284Bパラメータ、アクティブ13B。32兆トークンで学習し、同じく100万トークンのコンテキストを持つ。Proの「廉価版」と呼ぶには性能が高すぎる。ほとんどのベンチマークでProから1〜3ポイント差に収まっている。

ベンチマーク — 静かに、フロンティアに並んだ

ベンチマーク V4-Pro V4-Flash-Max Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro
MMLU-Pro 87.5 86.2 89.1 87.5 91.0
SWE-bench Verified 80.6 80.8 80.6
SWE-bench Pro 55.4 52.6 53.4 57.7 54.2
LiveCodeBench 93.5 91.6
Codeforces 3206 3168
IMOAnswerBench 89.8 75.3 91.4 81.0

正直、驚いた。MMLU-ProでGPT-5.4と同点、SWE-bench VerifiedでClaude Opus 4.6と0.2ポイント差。Codeforcesに至ってはGPT-5.4を上回っている。数学(IMOAnswerBench)ではGPT-5.4に2ポイント及ばないが、Claude Opus 4.6を15ポイント近く引き離した。

Flashでこの水準というのがまた異常で、SWE-bench ProのV4-Flash-Max(52.6)はClaude Opus 4.6(53.4)に肉薄している。

料金 — 「桁が違う」は文字通り

モデル 入力($/M tokens) 出力($/M tokens) キャッシュヒット入力
V4-Flash $0.14 $0.28 $0.014
V4-Pro $1.74 $3.48 $0.145
Claude Opus 4.6 $5.00 $25.00
Claude Opus 4.7 $5.00 $25.00
GPT-5.4 〜$5.00 〜$15.00

V4-Flashの入力$0.14は、Claude Opus 4.6の36分の1。キャッシュヒット時は$0.014で、もう価格というより誤差に近い。

V4-Proでも入力$1.74はClaude Opusの約3分の1。しかもキャッシュヒットで$0.145まで下がる。100万トークンの長大なコードベースを繰り返し読ませるような使い方なら、コスト差は一桁以上になる。

Hybrid Attention — なぜここまで安くできるのか

V4の価格破壊を支えているのが、今回初めて導入されたHybrid Attention Architectureだ。Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせ、100万トークンコンテキストでの推論FLOPsをV3.2比で73%削減。KVキャッシュも90%削減している。

つまり、100万トークンを処理するのにV3.2の4分の1以下の計算リソースで済む。これがそのまま価格に反映されている。アーキテクチャの改善がビジネスモデルを変えた好例だ。

事前記事との答え合わせ

4月8日の記事で書いた予測を振り返る。

項目 事前予測 実際
総パラメータ 1兆 1.6兆(+60%)
アクティブパラメータ 370B 49B(86%減)
価格(入力) $0.30/M $0.14〜$1.74/M
コンテキスト 100万トークン 100万トークン(一致)
Huaweiチップ上で動作 ○(一致)

事前に「370Bアクティブ」と書いた部分が最も外れた。実際のV4-Proは49Bアクティブで、これは前世代のV3(37Bアクティブ)からわずかに増えただけ。にもかかわらず、総パラメータを1.6兆に拡大し、Hybrid Attentionで効率を上げることで、49Bの推論コストでフロンティアモデル級の性能を実現している。

誰が使うべきか

V4-Flash は、コーディング・翻訳・要約・RAGといった日常的なタスクの最適解になりうる。SWE-bench Pro 52.6%の性能を$0.14/Mで使えるなら、大量のAPIコールが走るエージェントワークフローに最適だ。Claude Sonnet 4.6の代替として十分なケースが多い。

V4-Pro は、数学的推論や複雑なコーディングでGPT-5.4やClaude Opus 4.6と同等の品質が必要だが、コストを3分の1に抑えたい場合。特にCodeforcesでGPT-5.4を上回るコーディング性能は、競技プログラミング的なアルゴリズム設計で強みになる。

一方で、V4はまだ「プレビュー」段階だ。長期的な安定性や、日本語での応答品質は実際に使い込まないと見えてこない。また、Huaweiチップ上で動いているという事実は、地政学的リスクとして企業のセキュリティポリシー上、採用を躊躇する理由になりうる。

安すぎて怖いのか

正直に言えば、この価格設定は持続可能なのか疑問は残る。DeepSeekは4月初旬に初の外部資金調達($300M+)を決断しており、V4の普及フェーズではマージンを度外視している可能性がある。

ただ、Hybrid Attentionによるコスト構造の改善は本物だ。90%のKVキャッシュ削減は、GPUメモリの節約に直結する。仮に将来値上げがあっても、アーキテクチャレベルの効率化は価格優位性を維持するだろう。

Apache 2.0ライセンスでウェイトが公開されている以上、最悪の場合はセルフホストすれば価格リスクもゼロになる。100万トークンのコンテキストを100万分の1のコストで — それがDeepSeek V4の提案だ。

関連記事