
DeepSeek V4 Flash vs MiniMax M3,2026年高效开源模型对决
一个开发者团队的生产设置,V4 Flash 负责结构化输出,M3 负责自主探索阶段。「它们不是在竞争,它们在我的技术栈里做不同的事,」他们这样描述。
这个思路可能比「谁更好」更有实际意义。
DeepSeek V4 Flash 和 MiniMax M3 都是定位于大批量、长上下文场景的开源模型,都支持 100 万 token 上下文,都在「需要真实能力但付不起旗舰价格」这个市场竞争。但它们的优势方向不同,值得认真对比。
核心数据对比
| 评测项 | DeepSeek V4 Flash | MiniMax M3 |
|---|---|---|
| LiveCodeBench | 91.6% | — |
| SWE-bench Verified | 79.0% | — |
| SWE-bench Pro | — | 59.0% |
| Terminal-Bench 2.1 | — | 66.0% |
| KernelBench Hard | — | 28.8% |
| MCP Atlas | — | 74.2% |
| BrowseComp | — | 83.5% |
| PostTrainBench | — | 0.37 |
| 上下文窗口 | 100万 token | 100万 token(最低保证 51.2万) |
| 多模态支持 | 仅文本 | 原生支持 |
| 总参数 / 激活参数 | 2840亿 / 130亿 | — |
| 预填充加速(对比前代) | — | 9×+ |
| 100万 token 解码速度 | — | 15×+ 更快 |
| 输入价格(每百万 token) | $0.14 | — |
| 输出价格(每百万 token) | $0.22 | — |
DeepSeek V4 Flash,可预测的经济学和强劲的编码能力
V4 Flash 有公开的 API 定价,每百万 token 输入 $0.14,输出 $0.22,是目前有能力的开源模型里每 token 成本最低的选项之一。
LiveCodeBench 91.6%,SWE-bench Verified 79.0%,在总参数 2840 亿、每 token 只激活 130 亿参数的 MoE 架构上,这是很强的编码 benchmark 成绩。100 万 token 上下文现在就能用,价格已知,经济可预测。
在生产编码工作流里使用 V4 Flash 的开发者一致提到它在结构化生成任务上的可靠性。「写函数、处理端点、修复测试,V4 Flash 快速且可预测,」一个开发者描述了他的日常体验,「我不会在里面找惊喜。」
有一点值得注意。V4 Flash 发布时打了七五折的促销折扣,标准价格约是促销价的 4 倍。如果你在基于当前价格做基础设施决策,确认促销是否还在有效期内,这两种情况下经济学看起来是不同的。
MiniMax M3,另一种能力维度
M3 的 SWE-bench Pro 59.0% 是最清晰的差异化点,这是智能体代码修复里最难的 benchmark,M3 领先 V4 Flash(无公开分数)也领先 V4 Pro(55.4%)。对真正困难的智能体编码任务,M3 是前面那个。
BrowseComp 83.5%,超过了 Claude Opus 的 79.3%,这测的是复杂浏览器信息检索,直接对应有网络工具的智能体工作流。MCP Atlas 74.2%,多工具 benchmark 上的强表现。
2026年广泛流传的 ICLR 论文复现演示建立了 M3 自主能力的上限,M3 在无人工干预的条件下连续工作大约 12 小时,做了 18 次 commit,生成了 23 张图表,从头复现了一篇已发表的研究论文。18 次 commit 的历史记录显示 M3 在几个小时里自己调试了自己的失败,这不是短时间爆发的复杂任务处理,而是跨越长时间自主会话的持续表现。
架构上 M3 也有实质性的创新,MiniMax Sparse Attention 在 100 万 token 上下文下,预填充速度提升 9 倍以上,解码速度提升 15 倍以上,同等上下文长度的每 token 计算量只有前代 M2 的二十分之一。对长上下文延迟是瓶颈的应用,这个推理速度优势会随规模复利放大。
M3 原生支持多模态输入,V4 Flash 不行。
社区真实反应
发布后不久测试了 M3 的开发者有一个一致的反应,开放式智能体任务上令人印象深刻,紧约束任务上有些令人沮丧。
「M3 是我见过的最适合长程自主工作的东西,」一个开发者说,「当我需要它在 50 个步骤里自己思考,它非常出色。当我需要它严格按照我指定的 JSON 格式输出,会有失败。」这个模式,开放任务上出色、严格格式约束上不可靠,在多个独立测试者那里都出现了。
正是这个原因,多个团队描述了把 V4 Flash 和 M3 组合使用的方案,V4 Flash 负责结构化输出部分,M3 负责自主探索阶段。「它们不是在竞争,它们在做不同的事,」这是最常见的表述。
「你不会失望的,M3 要刷新大家对这件事的想象,」Skyler Miao 在演示流传开之后发的评论被广泛转发。这个反应抓住了 ML 社区的感受,M3 不只是 benchmark 更高,它展示了一种改变预期的持续自主能力。
V4 Flash 的用户则一致强调价格和可预测性。「成本透明让上线变得容易,」一个开发者分享,「我在构建之前就知道它要花多少钱。M3 那边我还在弄清楚生产规模下实际是什么样的。」
价格
V4 Flash 有明确的 API 定价。M3 目前的 Token Plan 订阅制(Plus $20/月,Max $50/月,Ultra $120/月),按每 token 直接比较还不够直接,但定价方向是可负担的。对于今天就要构建成本模型的团队,V4 Flash 提供了一个可以直接用的数字,M3 还需要更多调研来估算生产成本。
怎么选
成本可预测是硬要求、需要今天就上生产,选 V4 Flash,价格已知,编码 benchmark 强,100 万 token 上下文现成可用,结构化生成可靠性有生产验证。
对智能体编码工作流(SWE-bench Pro 领先)、多模态应用,或者需要长上下文高速推理的生产系统,M3 的结果足够有说服力。如果你的场景像 ICLR 复现演示那样,需要跨越长时间自主会话运行,而且紧约束指令的失败率不是你的阻断问题,M3 值得认真评估。
最有意思的部署方案,两个都用。V4 Flash 负责结构化生成,M3 负责自主探索和长上下文推理。
来源,MiniMax M3 官方博客,MiniMax M3 模型页,BenchLM V4 Flash,Artificial Analysis
