DeepSeek V4 Technical Report:架构、训练与 Benchmark 解读

DeepSeek V4 Technical Report:架构、训练与 Benchmark 解读

DeepSeek V4 technical report 描述了一个预览版 V4 模型家族,包含两个 Mixture-of-Experts 语言模型:

  • DeepSeek V4 Pro:1.6T 总参数,49B activated 参数,1M context。
  • DeepSeek V4 Flash:284B 总参数,13B activated 参数,1M context。

一手来源:

Technical report 关注什么

这份 report 的核心方向是高效的长上下文智能。对产品落地来说,最重要的信息很直接:V4 Pro 和 V4 Flash 都提供 1M token 上下文,但能力上限和成本定位不同。

Pro 面向更难的推理、代码和 agentic workflow。Flash 面向更低成本的高频对话、摘要、路由和日常产品入口。

架构重点

报告强调了几个架构和优化升级:

  • 面向长上下文效率的 hybrid attention。
  • 用于增强信号传播的 Manifold-Constrained Hyper-Connections。
  • 用于训练稳定性和收敛效率的 Muon optimizer。
  • Pro 与 Flash 两档 MoE 规模。

DeepSeek V4 report 层级与证据地图

架构章节应该用来决定测什么,而不是替代你对真实 prompts 的测量。

开发者不应该只看总参数。更实际的问题是:长上下文、缓存命中、reasoning effort 会怎样改变成本和质量的平衡。

训练与后训练

DeepSeek 表示 V4 模型使用超过 32T tokens 进行预训练,并经过多阶段后训练流程。发布材料描述了先培养领域专家,再进行统一模型整合的路线。

这意味着单个 benchmark 分数不足以决定上线策略。你应该直接测试自己的领域任务:代码修复、长文档综合、工具调用工作流、结构化抽取和高频客服对话。

推理模式

technical report 和模型卡描述了 non-thinking、thinking、max-thinking 风格。实践中:

  • 低风险、快速、低成本回答优先用 non-thinking。
  • 数学、代码、规划、多步推理用 thinking。
  • max-style reasoning 只在额外延迟和成本值得时使用。

当前 DeepSeek API pricing 页面列出的 V4 模型 ID 是 deepseek-v4-flashdeepseek-v4-pro

Benchmark 信号

发布材料包含知识、代码、长上下文和 agentic 任务的 benchmark 快照。本站跟踪几个实用锚点:

ModelMMLU-ProLiveCodeBenchSWE Verified
DeepSeek V4 Flash Max86.291.679.0
DeepSeek V4 Pro Max87.593.580.6

这些数字适合做路由参考,不应该直接等同于你的产品效果。如果应用依赖代码修改、检索质量或工具调用,请用真实流量构建 eval,并用同一批 prompts 对比 Flash 和 Pro。

上线检查清单

接入 DeepSeek V4 前,建议确认:

  • 哪些 workflow 必须用 Pro,哪些可以用 Flash。
  • Thinking 对你的任务是否足以抵消额外成本。
  • prompt caching 能降低多少重复上下文成本。
  • 最长真实文档是否能稳定放进 1M context。
  • tool-use 和 JSON 输出是否足够稳定,能满足产品契约。

technical report 解释了模型方向,但最终的路由、重试和 credit 定价应由你的真实 eval 决定。

D-Chat Team

D-Chat Team

DeepSeek V4 Technical Report:架构、训练与 Benchmark 解读 | DeepSeek V4 博客