DeepSeek V4 Size:参数量、Active 参数和上下文

DeepSeek V4 Size:参数量、Active 参数和上下文

理解 DeepSeek V4 size,需要分开看总参数、active 参数和上下文长度。

DeepSeek V4 模型规模与上下文示意

关键区别是总容量和实际推理成本:MoE 让模型可以很大,但每个 token 不需要激活全部参数。

官方模型规模

模型总参数Active 参数上下文
DeepSeek V4 Flash284B13B1M tokens
DeepSeek V4 Pro1.6T49B1M tokens

来源:DeepSeek-V4-Pro model cardDeepSeek API pricing

Active 参数是什么意思

DeepSeek V4 是 MoE 家族,所以总参数和 active 参数不同。总参数描述完整模型容量,active 参数描述每个 token 推理时大约使用的模型规模。

这也是 Flash 可以明显更便宜但仍然有实用质量的原因:它每个 token 激活参数更少,token 价格也更低。

为什么 1M context 重要

1M context 会改变产品设计。你可以放入大文档、长项目历史、日志或源代码。但上下文越大,成本和延迟也越高,所以仍然需要筛选上下文,而不是无脑塞满。

D-Chat Team

D-Chat Team

DeepSeek V4 Size:参数量、Active 参数和上下文 | DeepSeek V4 博客