DeepSeek V4 没有像 R1 那样带来那种「全行业抬头看卫星」的传播时刻,但在许多团队眼里,它已经是最便宜、也最「撑得住主业」的一批 Claude Opus / GPT‑5.x 系替代方案 之一。
TL;DR(太长不看)
- DeepSeek V4 预览于 2026 年 4 月 24 日前后发布,包含两款 MoE 型号:V4‑Pro(总规模约 1.6T / 单次激活约 49B)与 V4‑Flash(总规模约 284B / 单次激活约 13B),均为 MIT 许可,上下文窗口可达约 100 万 token。
- 新的注意力栈(压缩稀疏注意力 CSA + 高强度压缩注意力 HCA)把长上下文下单 token 的计算与 KV 体量压了下来:例如在 100 万 token 场景下,V4‑Pro 相对 V3.2 可把单 token FLOPs 打到约 27%,Flash 更可到约 10% 量级,使超长上下文在经济上更可承受。
- 在公开榜单上:Pro 常与 Claude Opus 4.6 互有胜负,并在 LiveCodeBench(约 93.5)、Codeforces(约 3206) 等赛道领先;在最「硬核」的一批推理评测上仍可能落后于 GPT‑5.4、Gemini 3.1 Pro 等闭源顶配。
什么是 DeepSeek V4?
DeepSeek V4 是新一代 MoE,核心变化之一是整套 长上下文注意力 设计:CSA(把序列先做约 4× 压缩并结合 top‑k 索引)与 HCA(把序列打到约 128× 压缩,落到更密的 MQA 流上,辅以约 128 token 的滑动窗口稳住「新近性」)。
工程侧还有几块拼盘:Manifold‑Constrained Hyper‑Connections 替换常规残差、大量参数用 Muon 替代 AdamW、对 MoE 专家做量化感知训练并混用 MXFP4 / FP8 等——这也是 Pro「磁盘仍能压在约 865 GB」、Flash 约 160 GB 这一类数字能站得住的原因。
对落地团队更实用的两点:
- OpenAI / Anthropic 兼容客户端可以直接打 DeepSeek 的 API。
- 若你用 Claude Code / OpenCode / OpenClaw,通常只需改环境变量,把 Anthropic 端点指到 DeepSeek,例如:
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"两款模型都提供多种「思考强度」模式(原文语境下常称 no think / high think / max think):其中 极限思考(Max) 往往需要 ≥384K 的上下文 Budget,否则会截断推理链。
下面是两款的核心对比(量级以公开材料为准):
维度 | V4‑Pro | V4‑Flash |
总参数 | ~1.6T | ~284B |
单次激活 | ~49B | ~13B |
磁盘体量(FP4/FP8 等混合) | ~865 GB | ~160 GB |
上下文窗口 | ~1M tokens | ~1M tokens |
最大输出 | ~384K tokens | ~384K tokens |
推理模式(概念上) | 非思考 / 高阶思考 / 极限思考 | 同左 |
托管 API(促销后示例) | input $1.74 / output $3.48(每百万) | input $0.14 / output $0.28(每百万) |
自托管门槛(粗粒度) | 多节点 H200 / B200 集群更合适 | 2×H100 80 GB FP8,或 1×H200 |
更贴合的任务 | 复杂编码、多步 Agent、硬核推理链 | 大批量推理、工具调用、分类、摘要 |
Claude Code:体验不变,把「后脑勺」换成 DeepSeek
社群讨论里最常见路径是:继续用 Claude Code(或同类工具),只把后端模型替换为 DeepSeek。典型只需要几行环境变量(示例命名以官方型号为准):
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"export ANTHROPIC_MODEL="deepseek-v4-pro"export ANTHROPIC_DEFAULT_OPUS_MODEL="deepseek-v4-pro"export ANTHROPIC_DEFAULT_HAIKU_MODEL="deepseek-v4-flash"export CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash"思路是:Heavy 推理用 Pro、子 Agent / 快路径用 Flash。
长文档、检索与上下文「能用」≠「端到端靠谱」
V4‑Flash 速度与成本都适合作为工具链里的默认小模型(类比 Haiku / Flash‑Lite),尤其每次调用要带很长文档上下文时。
在 MRCR(长上下文检索)上,V4‑Pro 据称能摸到很强的一档;但要注意:窗口支持 100 万 token ≠ 在最后 100 万 token 上仍保持高准确率。有材料提示在极限长度下准确率可能掉到 ~66%,更稳妥的工作区间约在 128K~512K,其中准确率可能落在 82%~94% 区间——具体仍以你的数据分布与评测为准。
数学、形式化推理与竞赛编程
V4 在这类任务上非常亮眼(数字来自原文引用的公开评测):V4‑Pro Codeforces Elo 约 3206,HMMT 2026(二月)约 95.2,IMOAnswerBench 约 89.8;形式化数学里 V4‑Flash‑Max 在 Putnam‑200 Pass@8 约 81.0;Putnam‑2025 混合测试甚至有 120/120 的报道成绩。
如果你在做数学辅导、定理证明辅助、竞赛评测器,V4 系列会是 当前开源阵营里非常有竞争力 的选项之一。
DeepSeek V4 的短板
- 不是多模态:纯文本,和自带视觉的 Gemini / Opus 比会少一条腿。常见解法是外挂 Qwen3‑VL 之类视觉模型,按需调用(ComfyUI 工作流里这也已是常态)。
- 架构复杂 & 仍是 Preview:有评论认为 V4「堆叠了 CSA+HCA、mHC、混合精度等大量工程手段」来突破扩展瓶颈;Think Max 能涨分,但不一定所有任务都单调受益。对 Preview 标签要保持敬畏:正式发布前行为仍可能微调。
在 共绩算力 上跑 DeepSeek V4
V4‑Flash 通常是更现实的自托管目标:约 160 GB 权重体量更可能塞进 单 Pod 双卡 H200(并仍有余量给 KV),解码延迟也可接受。
V4‑Pro 更偏「集群故事」:官方 vLLM 路线可能提到约 960 GB 混合精度容量量级——意味着 8×H200 / B300 这类满配单节点,或 多节点 Instant Cluster。
2026 年常见的推理栈选择
- vLLM 与 SGLang:Day‑0 路线里常见,强调对 CSA+HCA、FP4 MoE 后端、MTP 投机解码、解耦 prefill/decode 等特性的原生支持。
- TGI:预览期可能尚未覆盖 V4。
- Ollama / llama.cpp:社区 GGUF 与分支支持存在,但要多看「是否已合入稳定分支、是否有人长期维护」。
FAQ
DeepSeek V4 可以免费用上吗?
- 权重 MIT,可从 Hugging Face 下载自托管——不必向 DeepSeek 交许可费。
- 托管 API 是商业化服务:引用价位 Flash 约 $0.14 / $0.28,Pro 约 $1.74 / $3.48(每百万出入 token;Pro 在 2026‑05‑31 前可能有促销活动)。
本地 / 私有化最低硬件?
- Flash:**2×80 GB H100(FP8)**或 1×141 GB H200,系统内存建议 ≥256 GB(视框架与上下文而定)。
- Pro:往往需要 8~16×H200 或 8×B200 和多节点拓扑;单机「满血 Pro」是否在当下工程上成立,要结合你选用的推理引擎与上下文长度一起看。
- 实验向:有人在 IQ2/Q4 GGUF 量级上尝试 80 GB A100 跑 Flash,但质量与稳定性别抱生产预期。
能用 Ollama 跑吗?
Flash 在社区上更可行:Ollama 底层走 llama.cpp,取决于社区分支是否已经完整支持 DeepSeek‑V4 类结构。Pro 在 Ollama 上一般不现实。
Flash 够不够替代 Pro?
对大量线上流量:常常够。多处评测 Flash 与 Pro 的差距可能在「约几十个基准百分点」量级,但 成本可能差一个数量级以上。实务上常见策略:默认 Flash,遇到确凿需要更大推理_budget 的任务再上 Pro(复杂多步编码、高难度数学、长程 Agent)。
V4 vs Claude Opus 4.7 / GPT‑5.5?
- 编码向基准(LiveCodeBench / Codeforces / SWE‑bench):V4‑Pro 往往能站到第一梯队甚至更靠前。
- 最严苛推理合集(AIME、GPQA Diamond 高设置等):可能仍落后于部分闭源顶配。
- 真正的分水岭往往是账单:在同等工作负载下,V4 的 $/token 可能好看一个数量级。
Think High 和 Think Max?
两者都会在最终答案前分配更多内部链式推理;Max 在极难推理上往往答案质量上限更高,但通常需要 更长上下文 Budget(例如 ≥384K)以避免过程被截断,也会烧更多 token。High 更均衡,适合多数编码 / Agent。
有 GGUF 吗?
社群在 HF 上已有 V4‑Flash 相关 GGUF(例如一些作者仓库),但常需要 分支版 llama.cpp 才能跑通;也可关注 kobold.cpp 等带测试 API 的分支方案。
Preview 能上生产吗?
Flash:不少团队反馈发布后相对稳定。Pro:更建议视作 Preview:官方也可能在后续推出 正式版形态 / V4‑Coder 等变体;若你用 Pro 做生产,建议在 一两个季度周期预留一次汰换模型的预算。
结论
V4 预览版的「故事」不一定是「全面超越 GPT‑5.5 / Opus 4.7 / Gemini 3.1 Pro」,它的真正 punchline 往往是:
- 把 前沿可用智能 的成本打下来大约 一个数量级;
- MIT 权重 让私有化与二次开发路径更干净;
- Claude Code / OpenCode 生态能用极低摩擦接入。
对 公绩算力 用户来说,叙事也很直白:首发日级别的 vLLM / SGLang 支持路径、以及对 Flash ≈ 2×H200 这一类「开箱可跑」的甜点配置——再叠加小时账单,适合做严肃 PoC。
最后仍要咬住三点现实:预览版标签、长上下文≠长上下文全开仍高精度、跨工具的思考模式仍偏新。把 V4 当作「对你业务场景的生产候选」,而不是「抽象的榜单之神」——接下来两个季度的 推理账单 会给你最诚实的投票。