DeepSeek V4 Pro：在线试用 DeepSeek V4 Pro

概览

DeepSeek V4 Pro 适合什么

DeepSeek V4 Pro 是 V4 旗舰路线：1.6T 总参数、49B active 参数，并通过 DeepSeek API 提供 1M 上下文。复杂 prompt、代码和最终综合更适合用它。

1M 上下文

长文档、日志、需求和聊天历史可以留在同一次会话。

更高推理上限

Pro 在公开 V4 快照中的 MMLU-Pro、LiveCodeBench 和 SWE Verified 上领先。

适合升级路由

便宜模型先完成初步上下文整理，困难或用户可见答案再交给 Pro。

DeepSeek V4 Pro 对比 GPT、Claude、Gemini、Kimi 和 GLM

这里把 DeepSeek V4 Pro 与主流 frontier / reasoning 模型放在一起，对比通用推理、代码、软件工程、浏览和工具调用 benchmark。

模型

MMLU-Pro

SimpleQA

GPQA

LiveCodeBench

TerminalBench

SWEVerified

SWEPro

BrowseComp

MCPAtlas

Toolathlon

DeepSeek V4 Pro

Max

旗舰 V4 路线，在代码、agentic、浏览和工具调用任务上表现较强。

当质量风险高于延迟或成本时，优先使用 Pro。

MMLU-Pro

87.5

SimpleQA

57.9

GPQA

90.1

LiveCodeBench

93.5

Terminal Bench

67.9

SWE Verified

80.6

SWE Pro

55.4

BrowseComp

83.4

MCPAtlas

73.6

Toolathlon

51.8

Gemini 3.1 Pro

High

通用推理强基线，SimpleQA 与 GPQA 分数较高。

外部 frontier 基线。

MMLU-Pro

91.0

SimpleQA

75.6

GPQA

94.3

LiveCodeBench

91.7

Terminal Bench

68.5

SWE Verified

80.6

SWE Pro

54.2

BrowseComp

85.9

MCPAtlas

69.2

Toolathlon

48.8

Claude Opus 4.6

Max

代码和软件工程任务上的强基线。

外部 frontier 基线。

MMLU-Pro

89.1

SimpleQA

46.2

GPQA

91.3

LiveCodeBench

88.8

Terminal Bench

65.4

SWE Verified

80.8

SWE Pro

57.3

BrowseComp

83.7

MCPAtlas

73.8

Toolathlon

47.2

GPT-5.4

xHigh

偏深度推理的基线，Terminal、浏览和工具调用结果较强。

- 表示来源表格未披露该分数。

MMLU-Pro

87.5

SimpleQA

45.3

GPQA

93.0

LiveCodeBench

-

Terminal Bench

75.1

SWE Verified

-

SWE Pro

57.7

BrowseComp

82.7

MCPAtlas

67.2

Toolathlon

54.6

Kimi K2.6

Thinking

代码和 agentic 任务上的竞争基线。

外部 reasoning 基线。

MMLU-Pro

87.1

SimpleQA

36.9

GPQA

90.5

LiveCodeBench

89.6

Terminal Bench

66.7

SWE Verified

80.2

SWE Pro

58.6

BrowseComp

83.2

MCPAtlas

66.6

Toolathlon

50.0

GLM-5.1

Thinking

用于对比推理、浏览和工具任务的中国 frontier 基线。

- 表示来源表格未披露该分数。

MMLU-Pro

86.0

SimpleQA

38.1

GPQA

86.2

LiveCodeBench

-

Terminal Bench

63.5

SWE Verified

-

SWE Pro

58.4

BrowseComp

79.3

MCPAtlas

71.8

Toolathlon

40.7

DeepSeek V4 Flash

Max

高效 V4 路线，在代码和软件任务上接近 Pro。

先用 Flash 做低成本初筛，再把困难任务升级到 Pro。

MMLU-Pro

86.2

SimpleQA

34.1

GPQA

88.1

LiveCodeBench

91.6

Terminal Bench

56.9

SWE Verified

79.0

SWE Pro

52.6

BrowseComp

73.2

MCPAtlas

69.0

Toolathlon

47.8

数值来自 DeepSeek V4 官方模型卡表格。它们适合做路由参考，不能替代你自己的生产 eval。

更新于 2026-04-24

适用场景

DeepSeek V4 Pro 擅长什么

适合那些值得花更多成本换取更仔细推理的任务。

代码修复

诊断失败 route、审查补丁、跨文件推理，并先解释根因再改代码。

长文本分析

读取长规格、日志、转录或研究笔记，并产出结构化结论。

Agent 规划

拆解多步任务、选择工具、暴露风险，并准备实现计划。

最终综合

Flash 已经整理上下文后，需要更高可靠性的最终答案再交给 Pro。

复杂对比

更仔细地比较 API、论文、benchmark 或其他模型的取舍。

技术写作

把原始笔记整理成技术报告、迁移计划和决策记录。

常见问题

DeepSeek V4 Pro 常见问题

关于 DeepSeek V4 Pro 的快速回答。

1

DeepSeek V4 Pro API 模型 ID 是什么？

使用 deepseek-v4-pro。

2

DeepSeek V4 Pro 多大？

官方材料列出 1.6T 总参数和 49B active 参数。

3

Pro 支持多长上下文？

DeepSeek API pricing 表列出 DeepSeek V4 Pro 支持 1M 上下文。

4

Pro 如何计费？

当前价格页列出缓存命中输入 $0.145、缓存未命中输入 $1.74、输出 $3.48 / 1M tokens。

5

什么时候应该用 Flash？

当速度、吞吐和 token 成本比最高推理上限更重要时，用 Flash。

6

Pro 可以配合 Thinking 吗？

可以。D-Chat 可以为更复杂 prompt 开启 Thinking。

比较相邻选项

如果 Pro 超过你的需求，可以对比更快的 V4 路线。

DeepSeek V4 Flash

更快更便宜的 V4 模型，适合日常对话、摘要、路由和初步分析。

DeepSeek V4 价格

选择默认模型前，先比较 D-Chat credits 和 DeepSeek 官方 token 价格。

DeepSeek V4 Benchmark

阅读 benchmark 指南，理解 Pro 和 Flash 分数及实际评估方式。

DeepSeek V4 Pro：DeepSeek V4 的旗舰推理模型

DeepSeek-V4-Pro 已就绪

DeepSeek V4 Pro 适合什么

1M 上下文

更高推理上限

适合升级路由

DeepSeek V4 Pro 对比 GPT、Claude、Gemini、Kimi 和 GLM

DeepSeek V4 Pro

Gemini 3.1 Pro

Claude Opus 4.6

GPT-5.4

Kimi K2.6

GLM-5.1

DeepSeek V4 Flash

DeepSeek V4 Pro 擅长什么

代码修复

长文本分析

Agent 规划

最终综合

复杂对比

技术写作

DeepSeek V4 Pro 常见问题

DeepSeek V4 Pro API 模型 ID 是什么？

DeepSeek V4 Pro 多大？

Pro 支持多长上下文？

Pro 如何计费？

什么时候应该用 Flash？

Pro 可以配合 Thinking 吗？