DeepSeek V4 Pro:DeepSeek V4 的旗舰推理模型

DeepSeek V4 系列里的高上限模型。适合代码、多步推理、agent 规划、长分析,以及错误成本高于额外 credits 的任务。

Ready To Chat
DeepSeek-V4-Pro
在线
Thinking

DeepSeek-V4-Pro 已就绪

DeepSeek-V4-Pro 是此页面的默认模型。Flagship DeepSeek V4 model for hard reasoning, coding, long-context analysis, and agentic tasks.

选择 Flash 或 Pro,按需打开联网搜索和 Thinking,然后直接用真实问题开聊。
旗舰
推理
代码
Agentic

示例问题

上下文
1M
规模
1.6T / 49B active
最大输出
64K
更适合
复杂推理
切换 DeepSeek V4 模型

当质量上限比 token 成本或延迟更重要时,优先使用 Pro。

概览

DeepSeek V4 Pro 适合什么

DeepSeek V4 Pro 是 V4 旗舰路线:1.6T 总参数、49B active 参数,并通过 DeepSeek API 提供 1M 上下文。复杂 prompt、代码和最终综合更适合用它。

1M 上下文

长文档、日志、需求和聊天历史可以留在同一次会话。

更高推理上限

Pro 在公开 V4 快照中的 MMLU-Pro、LiveCodeBench 和 SWE Verified 上领先。

适合升级路由

便宜模型先完成初步上下文整理,困难或用户可见答案再交给 Pro。

DeepSeek V4 Pro 对比 GPT、Claude、Gemini、Kimi 和 GLM

这里把 DeepSeek V4 Pro 与主流 frontier / reasoning 模型放在一起,对比通用推理、代码、软件工程、浏览和工具调用 benchmark。

DeepSeek V4 Pro

Max

旗舰 V4 路线,在代码、agentic、浏览和工具调用任务上表现较强。

当质量风险高于延迟或成本时,优先使用 Pro。

MMLU-Pro
87.5
SimpleQA
57.9
GPQA
90.1
LiveCodeBench
93.5
Terminal Bench
67.9
SWE Verified
80.6
SWE Pro
55.4
BrowseComp
83.4
MCPAtlas
73.6
Toolathlon
51.8

Gemini 3.1 Pro

High

通用推理强基线,SimpleQA 与 GPQA 分数较高。

外部 frontier 基线。

MMLU-Pro
91.0
SimpleQA
75.6
GPQA
94.3
LiveCodeBench
91.7
Terminal Bench
68.5
SWE Verified
80.6
SWE Pro
54.2
BrowseComp
85.9
MCPAtlas
69.2
Toolathlon
48.8

Claude Opus 4.6

Max

代码和软件工程任务上的强基线。

外部 frontier 基线。

MMLU-Pro
89.1
SimpleQA
46.2
GPQA
91.3
LiveCodeBench
88.8
Terminal Bench
65.4
SWE Verified
80.8
SWE Pro
57.3
BrowseComp
83.7
MCPAtlas
73.8
Toolathlon
47.2

GPT-5.4

xHigh

偏深度推理的基线,Terminal、浏览和工具调用结果较强。

- 表示来源表格未披露该分数。

MMLU-Pro
87.5
SimpleQA
45.3
GPQA
93.0
LiveCodeBench
-
Terminal Bench
75.1
SWE Verified
-
SWE Pro
57.7
BrowseComp
82.7
MCPAtlas
67.2
Toolathlon
54.6

Kimi K2.6

Thinking

代码和 agentic 任务上的竞争基线。

外部 reasoning 基线。

MMLU-Pro
87.1
SimpleQA
36.9
GPQA
90.5
LiveCodeBench
89.6
Terminal Bench
66.7
SWE Verified
80.2
SWE Pro
58.6
BrowseComp
83.2
MCPAtlas
66.6
Toolathlon
50.0

GLM-5.1

Thinking

用于对比推理、浏览和工具任务的中国 frontier 基线。

- 表示来源表格未披露该分数。

MMLU-Pro
86.0
SimpleQA
38.1
GPQA
86.2
LiveCodeBench
-
Terminal Bench
63.5
SWE Verified
-
SWE Pro
58.4
BrowseComp
79.3
MCPAtlas
71.8
Toolathlon
40.7

DeepSeek V4 Flash

Max

高效 V4 路线,在代码和软件任务上接近 Pro。

先用 Flash 做低成本初筛,再把困难任务升级到 Pro。

MMLU-Pro
86.2
SimpleQA
34.1
GPQA
88.1
LiveCodeBench
91.6
Terminal Bench
56.9
SWE Verified
79.0
SWE Pro
52.6
BrowseComp
73.2
MCPAtlas
69.0
Toolathlon
47.8

数值来自 DeepSeek V4 官方模型卡表格。它们适合做路由参考,不能替代你自己的生产 eval。

更新于 2026-04-24
适用场景

DeepSeek V4 Pro 擅长什么

适合那些值得花更多成本换取更仔细推理的任务。

代码修复

诊断失败 route、审查补丁、跨文件推理,并先解释根因再改代码。

长文本分析

读取长规格、日志、转录或研究笔记,并产出结构化结论。

Agent 规划

拆解多步任务、选择工具、暴露风险,并准备实现计划。

最终综合

Flash 已经整理上下文后,需要更高可靠性的最终答案再交给 Pro。

复杂对比

更仔细地比较 API、论文、benchmark 或其他模型的取舍。

技术写作

把原始笔记整理成技术报告、迁移计划和决策记录。

常见问题

DeepSeek V4 Pro 常见问题

关于 DeepSeek V4 Pro 的快速回答。

1

DeepSeek V4 Pro API 模型 ID 是什么?

使用 deepseek-v4-pro。

2

DeepSeek V4 Pro 多大?

官方材料列出 1.6T 总参数和 49B active 参数。

3

Pro 支持多长上下文?

DeepSeek API pricing 表列出 DeepSeek V4 Pro 支持 1M 上下文。

4

Pro 如何计费?

当前价格页列出缓存命中输入 $0.145、缓存未命中输入 $1.74、输出 $3.48 / 1M tokens。

5

什么时候应该用 Flash?

当速度、吞吐和 token 成本比最高推理上限更重要时,用 Flash。

6

Pro 可以配合 Thinking 吗?

可以。D-Chat 可以为更复杂 prompt 开启 Thinking。