DeepSeek V4 Technical Report：架构、训练与 Benchmark 解读

DeepSeek V4 technical report 描述了一个预览版 V4 模型家族，包含两个 Mixture-of-Experts 语言模型：

一手来源：

Technical report 关注什么

这份 report 的核心方向是高效的长上下文智能。对产品落地来说，最重要的信息很直接：V4 Pro 和 V4 Flash 都提供 1M token 上下文，但能力上限和成本定位不同。

Pro 面向更难的推理、代码和 agentic workflow。Flash 面向更低成本的高频对话、摘要、路由和日常产品入口。

报告强调了几个架构和优化升级：

DeepSeek V4 report 层级与证据地图

架构章节应该用来决定测什么，而不是替代你对真实 prompts 的测量。

开发者不应该只看总参数。更实际的问题是：长上下文、缓存命中、reasoning effort 会怎样改变成本和质量的平衡。

DeepSeek 表示 V4 模型使用超过 32T tokens 进行预训练，并经过多阶段后训练流程。发布材料描述了先培养领域专家，再进行统一模型整合的路线。

这意味着单个 benchmark 分数不足以决定上线策略。你应该直接测试自己的领域任务：代码修复、长文档综合、工具调用工作流、结构化抽取和高频客服对话。

technical report 和模型卡描述了 non-thinking、thinking、max-thinking 风格。实践中：

当前 DeepSeek API pricing 页面列出的 V4 模型 ID 是 deepseek-v4-flash 和 deepseek-v4-pro。

发布材料包含知识、代码、长上下文和 agentic 任务的 benchmark 快照。本站跟踪几个实用锚点：

Model	MMLU-Pro	LiveCodeBench	SWE Verified
DeepSeek V4 Flash Max	86.2	91.6	79.0
DeepSeek V4 Pro Max	87.5	93.5	80.6

这些数字适合做路由参考，不应该直接等同于你的产品效果。如果应用依赖代码修改、检索质量或工具调用，请用真实流量构建 eval，并用同一批 prompts 对比 Flash 和 Pro。

接入 DeepSeek V4 前，建议确认：

technical report 解释了模型方向，但最终的路由、重试和 credit 定价应由你的真实 eval 决定。