DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

4月24日、DeepSeekがV4シリーズを正式にローンチした。
2週間前、筆者は事前情報をもとに記事を書いた。1兆パラメータ、370Bアクティブ、$0.30/Mトークン。蓋を開けてみると、数字がことごとく違う。1.6兆パラメータ、49Bアクティブ、入力$0.14〜$1.74。予想より巨大で、予想より効率的で、予想より安い。
Bloombergが即日報道し、HuggingFaceにはApache 2.0でウェイトが公開された。Chatbot Arenaではすでにトップ争いに加わっている。
V4 ProとV4 Flash — 2つのモデル、2つの戦略
DeepSeekは今回、1つのモデルではなく2つのバリアントを同時に出してきた。
V4-Pro は1.6兆パラメータのMoE(Mixture of Experts)で、1回の推論で実際に動くのは49B。前世代V3.2からアクティブパラメータを大幅に削りながら、性能は上回っている。33兆トークンで事前学習済み、コンテキストウィンドウは100万トークン、最大出力は384Kトークン。
V4-Flash は284Bパラメータ、アクティブ13B。32兆トークンで学習し、同じく100万トークンのコンテキストを持つ。Proの「廉価版」と呼ぶには性能が高すぎる。ほとんどのベンチマークでProから1〜3ポイント差に収まっている。
ベンチマーク — 静かに、フロンティアに並んだ
| ベンチマーク | V4-Pro | V4-Flash-Max | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| MMLU-Pro | 87.5 | 86.2 | 89.1 | 87.5 | 91.0 |
| SWE-bench Verified | 80.6 | — | 80.8 | — | 80.6 |
| SWE-bench Pro | 55.4 | 52.6 | 53.4 | 57.7 | 54.2 |
| LiveCodeBench | 93.5 | 91.6 | — | — | — |
| Codeforces | 3206 | — | — | 3168 | — |
| IMOAnswerBench | 89.8 | — | 75.3 | 91.4 | 81.0 |
正直、驚いた。MMLU-ProでGPT-5.4と同点、SWE-bench VerifiedでClaude Opus 4.6と0.2ポイント差。Codeforcesに至ってはGPT-5.4を上回っている。数学(IMOAnswerBench)ではGPT-5.4に2ポイント及ばないが、Claude Opus 4.6を15ポイント近く引き離した。
Flashでこの水準というのがまた異常で、SWE-bench ProのV4-Flash-Max(52.6)はClaude Opus 4.6(53.4)に肉薄している。
料金 — 「桁が違う」は文字通り
| モデル | 入力($/M tokens) | 出力($/M tokens) | キャッシュヒット入力 |
|---|---|---|---|
| V4-Flash | $0.14 | $0.28 | $0.014 |
| V4-Pro | $1.74 | $3.48 | $0.145 |
| Claude Opus 4.6 | $5.00 | $25.00 | — |
| Claude Opus 4.7 | $5.00 | $25.00 | — |
| GPT-5.4 | 〜$5.00 | 〜$15.00 | — |
V4-Flashの入力$0.14は、Claude Opus 4.6の36分の1。キャッシュヒット時は$0.014で、もう価格というより誤差に近い。
V4-Proでも入力$1.74はClaude Opusの約3分の1。しかもキャッシュヒットで$0.145まで下がる。100万トークンの長大なコードベースを繰り返し読ませるような使い方なら、コスト差は一桁以上になる。
Hybrid Attention — なぜここまで安くできるのか
V4の価格破壊を支えているのが、今回初めて導入されたHybrid Attention Architectureだ。Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせ、100万トークンコンテキストでの推論FLOPsをV3.2比で73%削減。KVキャッシュも90%削減している。
つまり、100万トークンを処理するのにV3.2の4分の1以下の計算リソースで済む。これがそのまま価格に反映されている。アーキテクチャの改善がビジネスモデルを変えた好例だ。
事前記事との答え合わせ
4月8日の記事で書いた予測を振り返る。
| 項目 | 事前予測 | 実際 |
|---|---|---|
| 総パラメータ | 1兆 | 1.6兆(+60%) |
| アクティブパラメータ | 370B | 49B(86%減) |
| 価格(入力) | $0.30/M | $0.14〜$1.74/M |
| コンテキスト | 100万トークン | 100万トークン(一致) |
| Huaweiチップ上で動作 | ○ | ○(一致) |
事前に「370Bアクティブ」と書いた部分が最も外れた。実際のV4-Proは49Bアクティブで、これは前世代のV3(37Bアクティブ)からわずかに増えただけ。にもかかわらず、総パラメータを1.6兆に拡大し、Hybrid Attentionで効率を上げることで、49Bの推論コストでフロンティアモデル級の性能を実現している。
誰が使うべきか
V4-Flash は、コーディング・翻訳・要約・RAGといった日常的なタスクの最適解になりうる。SWE-bench Pro 52.6%の性能を$0.14/Mで使えるなら、大量のAPIコールが走るエージェントワークフローに最適だ。Claude Sonnet 4.6の代替として十分なケースが多い。
V4-Pro は、数学的推論や複雑なコーディングでGPT-5.4やClaude Opus 4.6と同等の品質が必要だが、コストを3分の1に抑えたい場合。特にCodeforcesでGPT-5.4を上回るコーディング性能は、競技プログラミング的なアルゴリズム設計で強みになる。
一方で、V4はまだ「プレビュー」段階だ。長期的な安定性や、日本語での応答品質は実際に使い込まないと見えてこない。また、Huaweiチップ上で動いているという事実は、地政学的リスクとして企業のセキュリティポリシー上、採用を躊躇する理由になりうる。
安すぎて怖いのか
正直に言えば、この価格設定は持続可能なのか疑問は残る。DeepSeekは4月初旬に初の外部資金調達($300M+)を決断しており、V4の普及フェーズではマージンを度外視している可能性がある。
ただ、Hybrid Attentionによるコスト構造の改善は本物だ。90%のKVキャッシュ削減は、GPUメモリの節約に直結する。仮に将来値上げがあっても、アーキテクチャレベルの効率化は価格優位性を維持するだろう。
Apache 2.0ライセンスでウェイトが公開されている以上、最悪の場合はセルフホストすれば価格リスクもゼロになる。100万トークンのコンテキストを100万分の1のコストで — それがDeepSeek V4の提案だ。
関連記事
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話
Caltech発PrismMLの1ビットLLM「Bonsai」は80億パラメータを1.15GBに収め、iPhone上で毎秒44トークン生成する。量子化とは異なるネイティブ1ビット学習の仕組みと性能を解説。
月$20のClaude Codeに対抗馬が現れた — 無料で使えるQwen Codeの実力
AlibabaのQwenチームが開発するオープンソースCLIコーディングエージェント「Qwen Code」。Claude CodeやCodex CLIとの違い、機能、使い方を整理する。