DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

DeepSeek V4

4月24日、DeepSeekがV4シリーズを正式にローンチした。

2週間前、筆者は事前情報をもとに記事を書いた。1兆パラメータ、370Bアクティブ、$0.30/Mトークン。蓋を開けてみると、数字がことごとく違う。1.6兆パラメータ、49Bアクティブ、入力$0.14〜$1.74。予想より巨大で、予想より効率的で、予想より安い。

Bloombergが即日報道し、HuggingFaceにはApache 2.0でウェイトが公開された。Chatbot Arenaではすでにトップ争いに加わっている。

V4 ProとV4 Flash — 2つのモデル、2つの戦略

DeepSeekは今回、1つのモデルではなく2つのバリアントを同時に出してきた。

V4-Pro は1.6兆パラメータのMoE（Mixture of Experts）で、1回の推論で実際に動くのは49B。前世代V3.2からアクティブパラメータを大幅に削りながら、性能は上回っている。33兆トークンで事前学習済み、コンテキストウィンドウは100万トークン、最大出力は384Kトークン。

V4-Flash は284Bパラメータ、アクティブ13B。32兆トークンで学習し、同じく100万トークンのコンテキストを持つ。Proの「廉価版」と呼ぶには性能が高すぎる。ほとんどのベンチマークでProから1〜3ポイント差に収まっている。

ベンチマーク — 静かに、フロンティアに並んだ

ベンチマーク	V4-Pro	V4-Flash-Max	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
MMLU-Pro	87.5	86.2	89.1	87.5	91.0
SWE-bench Verified	80.6	—	80.8	—	80.6
SWE-bench Pro	55.4	52.6	53.4	57.7	54.2
LiveCodeBench	93.5	91.6	—	—	—
Codeforces	3206	—	—	3168	—
IMOAnswerBench	89.8	—	75.3	91.4	81.0

正直、驚いた。MMLU-ProでGPT-5.4と同点、SWE-bench VerifiedでClaude Opus 4.6と0.2ポイント差。Codeforcesに至ってはGPT-5.4を上回っている。数学（IMOAnswerBench）ではGPT-5.4に2ポイント及ばないが、Claude Opus 4.6を15ポイント近く引き離した。

Flashでこの水準というのがまた異常で、SWE-bench ProのV4-Flash-Max（52.6）はClaude Opus 4.6（53.4）に肉薄している。

料金 — 「桁が違う」は文字通り

モデル	入力（$/M tokens）	出力（$/M tokens）	キャッシュヒット入力
V4-Flash	$0.14	$0.28	$0.014
V4-Pro	$1.74	$3.48	$0.145
Claude Opus 4.6	$5.00	$25.00	—
Claude Opus 4.7	$5.00	$25.00	—
GPT-5.4	〜$5.00	〜$15.00	—

V4-Flashの入力$0.14は、Claude Opus 4.6の36分の1。キャッシュヒット時は$0.014で、もう価格というより誤差に近い。

V4-Proでも入力$1.74はClaude Opusの約3分の1。しかもキャッシュヒットで$0.145まで下がる。100万トークンの長大なコードベースを繰り返し読ませるような使い方なら、コスト差は一桁以上になる。

Hybrid Attention — なぜここまで安くできるのか

V4の価格破壊を支えているのが、今回初めて導入されたHybrid Attention Architectureだ。Compressed Sparse Attention（CSA）とHeavily Compressed Attention（HCA）を組み合わせ、100万トークンコンテキストでの推論FLOPsをV3.2比で73%削減。KVキャッシュも90%削減している。

つまり、100万トークンを処理するのにV3.2の4分の1以下の計算リソースで済む。これがそのまま価格に反映されている。アーキテクチャの改善がビジネスモデルを変えた好例だ。

事前記事との答え合わせ

4月8日の記事で書いた予測を振り返る。

項目	事前予測	実際
総パラメータ	1兆	1.6兆（+60%）
アクティブパラメータ	370B	49B（86%減）
価格（入力）	$0.30/M	$0.14〜$1.74/M
コンテキスト	100万トークン	100万トークン（一致）
Huaweiチップ上で動作	○	○（一致）

事前に「370Bアクティブ」と書いた部分が最も外れた。実際のV4-Proは49Bアクティブで、これは前世代のV3（37Bアクティブ）からわずかに増えただけ。にもかかわらず、総パラメータを1.6兆に拡大し、Hybrid Attentionで効率を上げることで、49Bの推論コストでフロンティアモデル級の性能を実現している。

誰が使うべきか

V4-Flash は、コーディング・翻訳・要約・RAGといった日常的なタスクの最適解になりうる。SWE-bench Pro 52.6%の性能を$0.14/Mで使えるなら、大量のAPIコールが走るエージェントワークフローに最適だ。Claude Sonnet 4.6の代替として十分なケースが多い。

V4-Pro は、数学的推論や複雑なコーディングでGPT-5.4やClaude Opus 4.6と同等の品質が必要だが、コストを3分の1に抑えたい場合。特にCodeforcesでGPT-5.4を上回るコーディング性能は、競技プログラミング的なアルゴリズム設計で強みになる。

一方で、V4はまだ「プレビュー」段階だ。長期的な安定性や、日本語での応答品質は実際に使い込まないと見えてこない。また、Huaweiチップ上で動いているという事実は、地政学的リスクとして企業のセキュリティポリシー上、採用を躊躇する理由になりうる。

安すぎて怖いのか

正直に言えば、この価格設定は持続可能なのか疑問は残る。DeepSeekは4月初旬に初の外部資金調達（$300M+）を決断しており、V4の普及フェーズではマージンを度外視している可能性がある。

ただ、Hybrid Attentionによるコスト構造の改善は本物だ。90%のKVキャッシュ削減は、GPUメモリの節約に直結する。仮に将来値上げがあっても、アーキテクチャレベルの効率化は価格優位性を維持するだろう。

Apache 2.0ライセンスでウェイトが公開されている以上、最悪の場合はセルフホストすれば価格リスクもゼロになる。100万トークンのコンテキストを100万分の1のコストで — それがDeepSeek V4の提案だ。

DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

V4 ProとV4 Flash — 2つのモデル、2つの戦略

ベンチマーク — 静かに、フロンティアに並んだ

料金 — 「桁が違う」は文字通り

Hybrid Attention — なぜここまで安くできるのか

事前記事との答え合わせ

誰が使うべきか

安すぎて怖いのか

関連記事

Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日

80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話

月$20のClaude Codeに対抗馬が現れた — 無料で使えるQwen Codeの実力