DeepSeek V4 Size：参数量、Active 参数和上下文

理解 DeepSeek V4 size，需要分开看总参数、active 参数和上下文长度。

DeepSeek V4 模型规模与上下文示意

关键区别是总容量和实际推理成本：MoE 让模型可以很大，但每个 token 不需要激活全部参数。

官方模型规模

模型	总参数	Active 参数	上下文
DeepSeek V4 Flash	284B	13B	1M tokens
DeepSeek V4 Pro	1.6T	49B	1M tokens

DeepSeek V4 是 MoE 家族，所以总参数和 active 参数不同。总参数描述完整模型容量，active 参数描述每个 token 推理时大约使用的模型规模。

这也是 Flash 可以明显更便宜但仍然有实用质量的原因：它每个 token 激活参数更少，token 价格也更低。

1M context 会改变产品设计。你可以放入大文档、长项目历史、日志或源代码。但上下文越大，成本和延迟也越高，所以仍然需要筛选上下文，而不是无脑塞满。

不想只看参数？可以直接用：在 DeepSeek V4 Pro 体验 1.6T 推理模型，用 DeepSeek V4 Flash 处理高并发任务，或在定价页对比方案。

D-Chat Team

DeepSeek V4 Size：参数量、Active 参数和上下文