DeepSeek V4 没有像 R1 那样带来那种「全行业抬头看卫星」的传播时刻，但在许多团队眼里，它已经是最便宜、也最「撑得住主业」的一批 Claude Opus / GPT‑5.x 系替代方案 之一。

TL;DR（太长不看）

DeepSeek V4 预览于 2026 年 4 月 24 日前后发布，包含两款 MoE 型号：V4‑Pro（总规模约 1.6T / 单次激活约 49B）与 V4‑Flash（总规模约 284B / 单次激活约 13B），均为 MIT 许可，上下文窗口可达约 100 万 token。
新的注意力栈（压缩稀疏注意力 CSA + 高强度压缩注意力 HCA）把长上下文下单 token 的计算与 KV 体量压了下来：例如在 100 万 token 场景下，V4‑Pro 相对 V3.2 可把单 token FLOPs 打到约 27%，Flash 更可到约 10% 量级，使超长上下文在经济上更可承受。
在公开榜单上：Pro 常与 Claude Opus 4.6 互有胜负，并在 LiveCodeBench（约 93.5）、Codeforces（约 3206） 等赛道领先；在最「硬核」的一批推理评测上仍可能落后于 GPT‑5.4、Gemini 3.1 Pro 等闭源顶配。

什么是 DeepSeek V4？

DeepSeek V4 是新一代 MoE，核心变化之一是整套 长上下文注意力 设计：CSA（把序列先做约 4× 压缩并结合 top‑k 索引）与 HCA（把序列打到约 128× 压缩，落到更密的 MQA 流上，辅以约 128 token 的滑动窗口稳住「新近性」）。

工程侧还有几块拼盘：Manifold‑Constrained Hyper‑Connections 替换常规残差、大量参数用 Muon 替代 AdamW、对 MoE 专家做量化感知训练并混用 MXFP4 / FP8 等——这也是 Pro「磁盘仍能压在约 865 GB」、Flash 约 160 GB 这一类数字能站得住的原因。

对落地团队更实用的两点：

OpenAI / Anthropic 兼容客户端可以直接打 DeepSeek 的 API。
若你用 Claude Code / OpenCode / OpenClaw，通常只需改环境变量，把 Anthropic 端点指到 DeepSeek，例如：

export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"

两款模型都提供多种「思考强度」模式（原文语境下常称 no think / high think / max think）：其中 极限思考（Max） 往往需要 ≥384K 的上下文 Budget，否则会截断推理链。

下面是两款的核心对比（量级以公开材料为准）：

维度	V4‑Pro	V4‑Flash
总参数	~1.6T	~284B
单次激活	~49B	~13B
磁盘体量（FP4/FP8 等混合）	~865 GB	~160 GB
上下文窗口	~1M tokens	~1M tokens
最大输出	~384K tokens	~384K tokens
推理模式（概念上）	非思考 / 高阶思考 / 极限思考	同左
托管 API（促销后示例）	input $1.74 / output $3.48（每百万）	input $0.14 / output $0.28（每百万）
自托管门槛（粗粒度）	多节点 H200 / B200 集群更合适	2×H100 80 GB FP8，或 1×H200
更贴合的任务	复杂编码、多步 Agent、硬核推理链	大批量推理、工具调用、分类、摘要

Claude Code：体验不变，把「后脑勺」换成 DeepSeek

社群讨论里最常见路径是：继续用 Claude Code（或同类工具），只把后端模型替换为 DeepSeek。典型只需要几行环境变量（示例命名以官方型号为准）：

export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_MODEL="deepseek-v4-pro"
export ANTHROPIC_DEFAULT_OPUS_MODEL="deepseek-v4-pro"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="deepseek-v4-flash"
export CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash"

思路是：Heavy 推理用 Pro、子 Agent / 快路径用 Flash。

长文档、检索与上下文「能用」≠「端到端靠谱」

V4‑Flash 速度与成本都适合作为工具链里的默认小模型（类比 Haiku / Flash‑Lite），尤其每次调用要带很长文档上下文时。

在 MRCR（长上下文检索）上，V4‑Pro 据称能摸到很强的一档；但要注意：窗口支持 100 万 token ≠ 在最后 100 万 token 上仍保持高准确率。有材料提示在极限长度下准确率可能掉到 ~66%，更稳妥的工作区间约在 128K～512K，其中准确率可能落在 82%～94% 区间——具体仍以你的数据分布与评测为准。

数学、形式化推理与竞赛编程

V4 在这类任务上非常亮眼（数字来自原文引用的公开评测）：V4‑Pro Codeforces Elo 约 3206，HMMT 2026（二月）约 95.2，IMOAnswerBench 约 89.8；形式化数学里 V4‑Flash‑Max 在 Putnam‑200 Pass@8 约 81.0；Putnam‑2025 混合测试甚至有 120/120 的报道成绩。

如果你在做数学辅导、定理证明辅助、竞赛评测器，V4 系列会是 当前开源阵营里非常有竞争力 的选项之一。

DeepSeek V4 的短板

不是多模态：纯文本，和自带视觉的 Gemini / Opus 比会少一条腿。常见解法是外挂 Qwen3‑VL 之类视觉模型，按需调用（ComfyUI 工作流里这也已是常态）。
架构复杂 & 仍是 Preview：有评论认为 V4「堆叠了 CSA+HCA、mHC、混合精度等大量工程手段」来突破扩展瓶颈；Think Max 能涨分，但不一定所有任务都单调受益。对 Preview 标签要保持敬畏：正式发布前行为仍可能微调。

在共绩算力上跑 DeepSeek V4

V4‑Flash 通常是更现实的自托管目标：约 160 GB 权重体量更可能塞进 单 Pod 双卡 H200（并仍有余量给 KV），解码延迟也可接受。

V4‑Pro 更偏「集群故事」：官方 vLLM 路线可能提到约 960 GB 混合精度容量量级——意味着 8×H200 / B300 这类满配单节点，或 多节点 Instant Cluster。

2026 年常见的推理栈选择

vLLM 与 SGLang：Day‑0 路线里常见，强调对 CSA+HCA、FP4 MoE 后端、MTP 投机解码、解耦 prefill/decode 等特性的原生支持。
TGI：预览期可能尚未覆盖 V4。
Ollama / llama.cpp：社区 GGUF 与分支支持存在，但要多看「是否已合入稳定分支、是否有人长期维护」。

FAQ

DeepSeek V4 可以免费用上吗？

权重 MIT，可从 Hugging Face 下载自托管——不必向 DeepSeek 交许可费。
托管 API 是商业化服务：引用价位 Flash 约 $0.14 / $0.28，Pro 约 $1.74 / $3.48（每百万出入 token；Pro 在 2026‑05‑31 前可能有促销活动）。

本地 / 私有化最低硬件？

Flash：**2×80 GB H100（FP8）**或 1×141 GB H200，系统内存建议 ≥256 GB（视框架与上下文而定）。
Pro：往往需要 8～16×H200 或 8×B200 和多节点拓扑；单机「满血 Pro」是否在当下工程上成立，要结合你选用的推理引擎与上下文长度一起看。
实验向：有人在 IQ2/Q4 GGUF 量级上尝试 80 GB A100 跑 Flash，但质量与稳定性别抱生产预期。

能用 Ollama 跑吗？

Flash 在社区上更可行：Ollama 底层走 llama.cpp，取决于社区分支是否已经完整支持 DeepSeek‑V4 类结构。Pro 在 Ollama 上一般不现实。

Flash 够不够替代 Pro？

对大量线上流量：常常够。多处评测 Flash 与 Pro 的差距可能在「约几十个基准百分点」量级，但 成本可能差一个数量级以上。实务上常见策略：默认 Flash，遇到确凿需要更大推理_budget 的任务再上 Pro（复杂多步编码、高难度数学、长程 Agent）。

V4 vs Claude Opus 4.7 / GPT‑5.5?

编码向基准（LiveCodeBench / Codeforces / SWE‑bench）：V4‑Pro 往往能站到第一梯队甚至更靠前。
最严苛推理合集（AIME、GPQA Diamond 高设置等）：可能仍落后于部分闭源顶配。
真正的分水岭往往是账单：在同等工作负载下，V4 的 $/token 可能好看一个数量级。

Think High 和 Think Max？

两者都会在最终答案前分配更多内部链式推理；Max 在极难推理上往往答案质量上限更高，但通常需要 更长上下文 Budget（例如 ≥384K）以避免过程被截断，也会烧更多 token。High 更均衡，适合多数编码 / Agent。

有 GGUF 吗？

社群在 HF 上已有 V4‑Flash 相关 GGUF（例如一些作者仓库），但常需要 分支版 llama.cpp 才能跑通；也可关注 kobold.cpp 等带测试 API 的分支方案。

Preview 能上生产吗？

Flash：不少团队反馈发布后相对稳定。Pro：更建议视作 Preview：官方也可能在后续推出 正式版形态 / V4‑Coder 等变体；若你用 Pro 做生产，建议在 一两个季度周期预留一次汰换模型的预算。

结论

V4 预览版的「故事」不一定是「全面超越 GPT‑5.5 / Opus 4.7 / Gemini 3.1 Pro」，它的真正 punchline 往往是：

把 前沿可用智能 的成本打下来大约 一个数量级；
MIT 权重 让私有化与二次开发路径更干净；
Claude Code / OpenCode 生态能用极低摩擦接入。

对公绩算力用户来说，叙事也很直白：首发日级别的 vLLM / SGLang 支持路径、以及对 Flash ≈ 2×H200 这一类「开箱可跑」的甜点配置——再叠加小时账单，适合做严肃 PoC。

最后仍要咬住三点现实：预览版标签、长上下文≠长上下文全开仍高精度、跨工具的思考模式仍偏新。把 V4 当作「对你业务场景的生产候选」，而不是「抽象的榜单之神」——接下来两个季度的 推理账单 会给你最诚实的投票。

DeepSeek V4 Pro/Flash 实战

TL;DR（太长不看）

什么是 DeepSeek V4？

Claude Code：体验不变，把「后脑勺」换成 DeepSeek

长文档、检索与上下文「能用」≠「端到端靠谱」

数学、形式化推理与竞赛编程

DeepSeek V4 的短板

在共绩算力上跑 DeepSeek V4

2026 年常见的推理栈选择

FAQ

DeepSeek V4 可以免费用上吗？

本地 / 私有化最低硬件？

能用 Ollama 跑吗？

Flash 够不够替代 Pro？

V4 vs Claude Opus 4.7 / GPT‑5.5?

Think High 和 Think Max？

有 GGUF 吗？

Preview 能上生产吗？

结论

准备好开始您的 AI 之旅了吗？

DeepSeek V4 Pro/Flash 实战

TL;DR（太长不看）

什么是 DeepSeek V4？

Claude Code：体验不变，把「后脑勺」换成 DeepSeek

长文档、检索与上下文「能用」≠「端到端靠谱」

数学、形式化推理与竞赛编程

DeepSeek V4 的短板

在 共绩算力 上跑 DeepSeek V4

2026 年常见的推理栈选择

FAQ

DeepSeek V4 可以免费用上吗？

本地 / 私有化最低硬件？

能用 Ollama 跑吗？

Flash 够不够替代 Pro？

V4 vs Claude Opus 4.7 / GPT‑5.5?

Think High 和 Think Max？

有 GGUF 吗？

Preview 能上生产吗？

结论

准备好开始您的 AI 之旅了吗？

在共绩算力上跑 DeepSeek V4