DeepSeek V4 Benchmark：Pro 与 Flash 分数

DeepSeek V4 发布材料中给出了 DeepSeek V4 Flash 和 DeepSeek V4 Pro 的 Max mode benchmark 分数。

DeepSeek V4 benchmark 数据面板

Benchmark 适合做初步路由信号，但生产默认模型仍然应该用你的真实 workload prompt 来决定。

官方快照

模型	MMLU-Pro	LiveCodeBench	SWE Verified
DeepSeek V4 Flash	86.2	91.6	79.0
DeepSeek V4 Pro	87.5	93.5	80.6

Pro 在这组快照里更强，尤其适合 reasoning 和 coding 上限更重要的任务。Flash 的分数已经足够接近，因此很多高频工作流可以先用 Flash，再按需升级到 Pro。

不要只凭公开 benchmark 上线。建议构建一个小型内部 eval：

同一批 prompt 同时跑 Flash 和 Pro，再比较正确性、延迟和成本。

Benchmark 只是起点，建议用你自己的 prompt 测试。可以在 DeepSeek V4 Pro 体验最高分模型，用 DeepSeek V4 Flash 兼顾速度和并发，或在定价页对比方案。

D-Chat Team

DeepSeek V4 Benchmark：Pro 与 Flash 分数