DeepSeek V4 Flash vs MiniMax M3,2026年高效开源模型对决

DeepSeek V4 Flash vs MiniMax M3,2026年高效开源模型对决

一个开发者团队的生产设置,V4 Flash 负责结构化输出,M3 负责自主探索阶段。「它们不是在竞争,它们在我的技术栈里做不同的事,」他们这样描述。

这个思路可能比「谁更好」更有实际意义。

DeepSeek V4 Flash 和 MiniMax M3 都是定位于大批量、长上下文场景的开源模型,都支持 100 万 token 上下文,都在「需要真实能力但付不起旗舰价格」这个市场竞争。但它们的优势方向不同,值得认真对比。

核心数据对比

评测项DeepSeek V4 FlashMiniMax M3
LiveCodeBench91.6%
SWE-bench Verified79.0%
SWE-bench Pro59.0%
Terminal-Bench 2.166.0%
KernelBench Hard28.8%
MCP Atlas74.2%
BrowseComp83.5%
PostTrainBench0.37
上下文窗口100万 token100万 token(最低保证 51.2万)
多模态支持仅文本原生支持
总参数 / 激活参数2840亿 / 130亿
预填充加速(对比前代)9×+
100万 token 解码速度15×+ 更快
输入价格(每百万 token)$0.14
输出价格(每百万 token)$0.22

DeepSeek V4 Flash,可预测的经济学和强劲的编码能力

V4 Flash 有公开的 API 定价,每百万 token 输入 $0.14,输出 $0.22,是目前有能力的开源模型里每 token 成本最低的选项之一。

LiveCodeBench 91.6%,SWE-bench Verified 79.0%,在总参数 2840 亿、每 token 只激活 130 亿参数的 MoE 架构上,这是很强的编码 benchmark 成绩。100 万 token 上下文现在就能用,价格已知,经济可预测。

在生产编码工作流里使用 V4 Flash 的开发者一致提到它在结构化生成任务上的可靠性。「写函数、处理端点、修复测试,V4 Flash 快速且可预测,」一个开发者描述了他的日常体验,「我不会在里面找惊喜。」

有一点值得注意。V4 Flash 发布时打了七五折的促销折扣,标准价格约是促销价的 4 倍。如果你在基于当前价格做基础设施决策,确认促销是否还在有效期内,这两种情况下经济学看起来是不同的。

MiniMax M3,另一种能力维度

M3 的 SWE-bench Pro 59.0% 是最清晰的差异化点,这是智能体代码修复里最难的 benchmark,M3 领先 V4 Flash(无公开分数)也领先 V4 Pro(55.4%)。对真正困难的智能体编码任务,M3 是前面那个。

BrowseComp 83.5%,超过了 Claude Opus 的 79.3%,这测的是复杂浏览器信息检索,直接对应有网络工具的智能体工作流。MCP Atlas 74.2%,多工具 benchmark 上的强表现。

2026年广泛流传的 ICLR 论文复现演示建立了 M3 自主能力的上限,M3 在无人工干预的条件下连续工作大约 12 小时,做了 18 次 commit,生成了 23 张图表,从头复现了一篇已发表的研究论文。18 次 commit 的历史记录显示 M3 在几个小时里自己调试了自己的失败,这不是短时间爆发的复杂任务处理,而是跨越长时间自主会话的持续表现。

架构上 M3 也有实质性的创新,MiniMax Sparse Attention 在 100 万 token 上下文下,预填充速度提升 9 倍以上,解码速度提升 15 倍以上,同等上下文长度的每 token 计算量只有前代 M2 的二十分之一。对长上下文延迟是瓶颈的应用,这个推理速度优势会随规模复利放大。

M3 原生支持多模态输入,V4 Flash 不行。

社区真实反应

发布后不久测试了 M3 的开发者有一个一致的反应,开放式智能体任务上令人印象深刻,紧约束任务上有些令人沮丧。

「M3 是我见过的最适合长程自主工作的东西,」一个开发者说,「当我需要它在 50 个步骤里自己思考,它非常出色。当我需要它严格按照我指定的 JSON 格式输出,会有失败。」这个模式,开放任务上出色、严格格式约束上不可靠,在多个独立测试者那里都出现了。

正是这个原因,多个团队描述了把 V4 Flash 和 M3 组合使用的方案,V4 Flash 负责结构化输出部分,M3 负责自主探索阶段。「它们不是在竞争,它们在做不同的事,」这是最常见的表述。

「你不会失望的,M3 要刷新大家对这件事的想象,」Skyler Miao 在演示流传开之后发的评论被广泛转发。这个反应抓住了 ML 社区的感受,M3 不只是 benchmark 更高,它展示了一种改变预期的持续自主能力。

V4 Flash 的用户则一致强调价格和可预测性。「成本透明让上线变得容易,」一个开发者分享,「我在构建之前就知道它要花多少钱。M3 那边我还在弄清楚生产规模下实际是什么样的。」

价格

V4 Flash 有明确的 API 定价。M3 目前的 Token Plan 订阅制(Plus $20/月,Max $50/月,Ultra $120/月),按每 token 直接比较还不够直接,但定价方向是可负担的。对于今天就要构建成本模型的团队,V4 Flash 提供了一个可以直接用的数字,M3 还需要更多调研来估算生产成本。

怎么选

成本可预测是硬要求、需要今天就上生产,选 V4 Flash,价格已知,编码 benchmark 强,100 万 token 上下文现成可用,结构化生成可靠性有生产验证。

对智能体编码工作流(SWE-bench Pro 领先)、多模态应用,或者需要长上下文高速推理的生产系统,M3 的结果足够有说服力。如果你的场景像 ICLR 复现演示那样,需要跨越长时间自主会话运行,而且紧约束指令的失败率不是你的阻断问题,M3 值得认真评估。

最有意思的部署方案,两个都用。V4 Flash 负责结构化生成,M3 负责自主探索和长上下文推理。

来源,MiniMax M3 官方博客MiniMax M3 模型页BenchLM V4 FlashArtificial Analysis

D-Chat Team

D-Chat Team

DeepSeek V4 Flash vs MiniMax M3,2026年高效开源模型对决