
DeepSeek V4 Benchmark:Pro 与 Flash 分数
DeepSeek V4 发布材料中给出了 DeepSeek V4 Flash 和 DeepSeek V4 Pro 的 Max mode benchmark 分数。

Benchmark 适合做初步路由信号,但生产默认模型仍然应该用你的真实 workload prompt 来决定。
官方快照
| 模型 | MMLU-Pro | LiveCodeBench | SWE Verified |
|---|---|---|---|
| DeepSeek V4 Flash | 86.2 | 91.6 | 79.0 |
| DeepSeek V4 Pro | 87.5 | 93.5 | 80.6 |
来源:DeepSeek-V4-Pro model card 和 DeepSeek_V4.pdf。
如何解读
Pro 在这组快照里更强,尤其适合 reasoning 和 coding 上限更重要的任务。Flash 的分数已经足够接近,因此很多高频工作流可以先用 Flash,再按需升级到 Pro。
上线前怎么测
不要只凭公开 benchmark 上线。建议构建一个小型内部 eval:
- 20 个高频用户请求
- 20 个复杂边界案例
- 20 个代码或推理任务
- 10 个长上下文任务
同一批 prompt 同时跑 Flash 和 Pro,再比较正确性、延迟和成本。

