共绩算力

DeepSeek V4 Pro/Flash 实战

2026年5月8日
"DeepSeek V4 Pro / Flash 能力边界、托管定价与成本对比"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

DeepSeek V4 没有像 R1 那样带来那种「全行业抬头看卫星」的传播时刻,但在许多团队眼里,它已经是最便宜、也最「撑得住主业」的一批 Claude Opus / GPT‑5.x 系替代方案 之一。


TL;DR(太长不看)


什么是 DeepSeek V4?

DeepSeek V4 是新一代 MoE,核心变化之一是整套 长上下文注意力 设计:CSA(把序列先做约 压缩并结合 top‑k 索引)与 HCA(把序列打到约 128× 压缩,落到更密的 MQA 流上,辅以约 128 token 的滑动窗口稳住「新近性」)。

工程侧还有几块拼盘:Manifold‑Constrained Hyper‑Connections 替换常规残差、大量参数用 Muon 替代 AdamW、对 MoE 专家做量化感知训练并混用 MXFP4 / FP8 等——这也是 Pro「磁盘仍能压在约 865 GB」、Flash 约 160 GB 这一类数字能站得住的原因。

对落地团队更实用的两点:

  1. OpenAI / Anthropic 兼容客户端可以直接打 DeepSeek 的 API。
  2. 若你用 Claude Code / OpenCode / OpenClaw,通常只需改环境变量,把 Anthropic 端点指到 DeepSeek,例如:
Terminal window
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"

两款模型都提供多种「思考强度」模式(原文语境下常称 no think / high think / max think):其中 极限思考(Max) 往往需要 ≥384K 的上下文 Budget,否则会截断推理链。

下面是两款的核心对比(量级以公开材料为准):

维度

V4‑Pro

V4‑Flash

总参数

~1.6T

~284B

单次激活

~49B

~13B

磁盘体量(FP4/FP8 等混合)

~865 GB

~160 GB

上下文窗口

~1M tokens

~1M tokens

最大输出

~384K tokens

~384K tokens

推理模式(概念上)

非思考 / 高阶思考 / 极限思考

同左

托管 API(促销后示例)

input $1.74 / output $3.48(每百万)

input $0.14 / output $0.28(每百万)

自托管门槛(粗粒度)

多节点 H200 / B200 集群更合适

2×H100 80 GB FP8,或 1×H200

更贴合的任务

复杂编码、多步 Agent、硬核推理链

大批量推理、工具调用、分类、摘要


Claude Code:体验不变,把「后脑勺」换成 DeepSeek

社群讨论里最常见路径是:继续用 Claude Code(或同类工具),只把后端模型替换为 DeepSeek。典型只需要几行环境变量(示例命名以官方型号为准):

Terminal window
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_MODEL="deepseek-v4-pro"
export ANTHROPIC_DEFAULT_OPUS_MODEL="deepseek-v4-pro"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="deepseek-v4-flash"
export CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash"

思路是:Heavy 推理用 Pro、子 Agent / 快路径用 Flash


长文档、检索与上下文「能用」≠「端到端靠谱」

V4‑Flash 速度与成本都适合作为工具链里的默认小模型(类比 Haiku / Flash‑Lite),尤其每次调用要带很长文档上下文时。

MRCR(长上下文检索)上,V4‑Pro 据称能摸到很强的一档;但要注意:窗口支持 100 万 token ≠ 在最后 100 万 token 上仍保持高准确率。有材料提示在极限长度下准确率可能掉到 ~66%,更稳妥的工作区间约在 128K~512K,其中准确率可能落在 82%~94% 区间——具体仍以你的数据分布与评测为准。


数学、形式化推理与竞赛编程

V4 在这类任务上非常亮眼(数字来自原文引用的公开评测):V4‑Pro Codeforces Elo 约 3206,HMMT 2026(二月)约 95.2,IMOAnswerBench 约 89.8;形式化数学里 V4‑Flash‑Max 在 Putnam‑200 Pass@8 约 81.0;Putnam‑2025 混合测试甚至有 120/120 的报道成绩。

如果你在做数学辅导、定理证明辅助、竞赛评测器,V4 系列会是 当前开源阵营里非常有竞争力 的选项之一。


DeepSeek V4 的短板

  1. 不是多模态:纯文本,和自带视觉的 Gemini / Opus 比会少一条腿。常见解法是外挂 Qwen3‑VL 之类视觉模型,按需调用(ComfyUI 工作流里这也已是常态)。
  2. 架构复杂 & 仍是 Preview:有评论认为 V4「堆叠了 CSA+HCA、mHC、混合精度等大量工程手段」来突破扩展瓶颈;Think Max 能涨分,但不一定所有任务都单调受益。对 Preview 标签要保持敬畏:正式发布前行为仍可能微调。

在 共绩算力 上跑 DeepSeek V4

V4‑Flash 通常是更现实的自托管目标:约 160 GB 权重体量更可能塞进 单 Pod 双卡 H200(并仍有余量给 KV),解码延迟也可接受。

V4‑Pro 更偏「集群故事」:官方 vLLM 路线可能提到约 960 GB 混合精度容量量级——意味着 8×H200 / B300 这类满配单节点,或 多节点 Instant Cluster

2026 年常见的推理栈选择


FAQ

DeepSeek V4 可以免费用上吗?

本地 / 私有化最低硬件?

能用 Ollama 跑吗?

Flash 在社区上更可行:Ollama 底层走 llama.cpp,取决于社区分支是否已经完整支持 DeepSeek‑V4 类结构。Pro 在 Ollama 上一般不现实。

Flash 够不够替代 Pro?

对大量线上流量:常常够。多处评测 Flash 与 Pro 的差距可能在「约几十个基准百分点」量级,但 成本可能差一个数量级以上。实务上常见策略:默认 Flash,遇到确凿需要更大推理_budget 的任务再上 Pro(复杂多步编码、高难度数学、长程 Agent)。

V4 vs Claude Opus 4.7 / GPT‑5.5?

Think High 和 Think Max?

两者都会在最终答案前分配更多内部链式推理;Max 在极难推理上往往答案质量上限更高,但通常需要 更长上下文 Budget(例如 ≥384K)以避免过程被截断,也会烧更多 token。High 更均衡,适合多数编码 / Agent。

有 GGUF 吗?

社群在 HF 上已有 V4‑Flash 相关 GGUF(例如一些作者仓库),但常需要 分支版 llama.cpp 才能跑通;也可关注 kobold.cpp 等带测试 API 的分支方案。

Preview 能上生产吗?

Flash:不少团队反馈发布后相对稳定。Pro:更建议视作 Preview:官方也可能在后续推出 正式版形态 / V4‑Coder 等变体;若你用 Pro 做生产,建议在 一两个季度周期预留一次汰换模型的预算。


结论

V4 预览版的「故事」不一定是「全面超越 GPT‑5.5 / Opus 4.7 / Gemini 3.1 Pro」,它的真正 punchline 往往是:

对 公绩算力 用户来说,叙事也很直白:首发日级别的 vLLM / SGLang 支持路径、以及对 Flash ≈ 2×H200 这一类「开箱可跑」的甜点配置——再叠加小时账单,适合做严肃 PoC。

最后仍要咬住三点现实:预览版标签长上下文≠长上下文全开仍高精度跨工具的思考模式仍偏新。把 V4 当作「对你业务场景的生产候选」,而不是「抽象的榜单之神」——接下来两个季度的 推理账单 会给你最诚实的投票。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管