DeepSeek V4 Benchmark:Pro 与 Flash 分数

DeepSeek V4 Benchmark:Pro 与 Flash 分数

DeepSeek V4 发布材料中给出了 DeepSeek V4 Flash 和 DeepSeek V4 Pro 的 Max mode benchmark 分数。

DeepSeek V4 benchmark 数据面板

Benchmark 适合做初步路由信号,但生产默认模型仍然应该用你的真实 workload prompt 来决定。

官方快照

模型MMLU-ProLiveCodeBenchSWE Verified
DeepSeek V4 Flash86.291.679.0
DeepSeek V4 Pro87.593.580.6

来源:DeepSeek-V4-Pro model cardDeepSeek_V4.pdf

如何解读

Pro 在这组快照里更强,尤其适合 reasoning 和 coding 上限更重要的任务。Flash 的分数已经足够接近,因此很多高频工作流可以先用 Flash,再按需升级到 Pro。

上线前怎么测

不要只凭公开 benchmark 上线。建议构建一个小型内部 eval:

  • 20 个高频用户请求
  • 20 个复杂边界案例
  • 20 个代码或推理任务
  • 10 个长上下文任务

同一批 prompt 同时跑 Flash 和 Pro,再比较正确性、延迟和成本。

D-Chat Team

D-Chat Team

DeepSeek V4 Benchmark:Pro 与 Flash 分数 | DeepSeek V4 博客