
DeepSeek V4 Size:参数量、Active 参数和上下文
理解 DeepSeek V4 size,需要分开看总参数、active 参数和上下文长度。

关键区别是总容量和实际推理成本:MoE 让模型可以很大,但每个 token 不需要激活全部参数。
官方模型规模
| 模型 | 总参数 | Active 参数 | 上下文 |
|---|---|---|---|
| DeepSeek V4 Flash | 284B | 13B | 1M tokens |
| DeepSeek V4 Pro | 1.6T | 49B | 1M tokens |
来源:DeepSeek-V4-Pro model card 和 DeepSeek API pricing。
Active 参数是什么意思
DeepSeek V4 是 MoE 家族,所以总参数和 active 参数不同。总参数描述完整模型容量,active 参数描述每个 token 推理时大约使用的模型规模。
这也是 Flash 可以明显更便宜但仍然有实用质量的原因:它每个 token 激活参数更少,token 价格也更低。
为什么 1M context 重要
1M context 会改变产品设计。你可以放入大文档、长项目历史、日志或源代码。但上下文越大,成本和延迟也越高,所以仍然需要筛选上下文,而不是无脑塞满。

