
DeepSeek V4 Pro vs MiniMax M3,2026年开源前沿编码的正面交锋
2026年有一段演示视频在 ML 研究者社区里广泛流传,MiniMax M3 在没有任何人类干预的情况下连续工作了 12 小时,复现了一篇 ICLR 2025 的论文,18 次 commit,23 张图表,代码可以运行,实验可以复现。
这是一个新的参照系,不只是 benchmark 更高,而是做了一种以前认为要有人在旁边盯着才能做的事。
MiniMax M3 发布时提出了一个具体的主张,它是第一个也是唯一一个同时具备前沿编码能力、100 万 token 上下文和原生多模态的开源模型。DeepSeek V4 Pro 的回应是所有语言模型里最高的 Codeforces 评分和开源模型里最强的 LiveCodeBench 分数。
核心数据对比
| 评测项 | DeepSeek V4 Pro | MiniMax M3 |
|---|---|---|
| LiveCodeBench | 93.5% | — |
| SWE-bench Verified | 80.6% | — |
| SWE-bench Pro | 55.4% | 59.0% |
| Terminal-Bench 2.1 | 67.9% | 66.0% |
| Codeforces 评分 | 3206 | — |
| BrowseComp | — | 83.5% |
| PostTrainBench | — | 0.37 |
| 上下文窗口 | 100万 token | 100万 token(最低保证 51.2万) |
| 多模态支持 | 仅文本 | 原生支持 |
| 预填充加速(对比前代) | — | 9×+ |
| 100万 token 解码速度 | — | 15×+ 更快 |
| 开源 | 是(MIT) | 是 |
M3 赢的地方
SWE-bench Pro,被很多人认为是最接近真实软件工程的 benchmark,M3 59.0%,V4 Pro 55.4%,M3 领先 3.6 个百分点,在这个量级上是实质性的差距。
BrowseComp 是 M3 最令人印象深刻的结果,83.5%,超过了 Claude Opus 的 79.3%。这个 benchmark 测复杂的浏览器信息检索能力,直接映射到需要在真实网络来源里导航和提取信息的长程智能体任务。
M3 的 PostTrainBench 是 0.37,略低于 Claude Opus 4.7 的 0.42 和 GPT-5.5 的 0.39,但这是真实发布的数据。它的 CUDA 内核优化演示在 147 次自主迭代后把硬件利用率从 7.6% 提升到了 71.3%,实现 9.4 倍加速,这种结果已经超出了 benchmark 数字的范畴,是真实工程场景下的能力展示,而且了解 CUDA 性能调优有多难的人会理解这件事的分量。
M3 是这个比较里唯一支持原生多模态输入的开源模型,图片、文档、图表都能处理,V4 Pro 是纯文本。
V4 Pro 赢的地方
V4 Pro 在 LiveCodeBench 上领先,93.5%,这是最被广泛引用的编码质量 benchmark。SWE-bench Verified 80.6%,Codeforces 评分 3206,这是所有语言模型有史以来最高的竞赛编程分数。
Terminal-Bench 2.1 基本持平,V4 Pro 67.9%,M3 66.0%。
竞赛编程、算法任务、以及 LiveCodeBench 测量的那类编码质量,V4 Pro 是更强的选择。
架构和速度
两个模型都提供 100 万 token 上下文。V4 Pro 是 1.6 万亿参数的 MoE 模型,每 token 激活 490 亿参数。M3 的核心创新是 MiniMax Sparse Attention,在 100 万 token 上下文下,预填充速度提升 9 倍以上,解码速度提升 15 倍以上,同样上下文长度下每 token 计算量只有前代 M2 的二十分之一。这不只是能力故事,更是推理基础设施的故事,M3 让长上下文推理在经济上变得可行,这是大多数 100 万 token 上下文模型做不到的。
引发广泛关注的 ICLR 论文复现演示
技术论文完整解读出来之前,一段演示视频就在 ML 研究者和 AI 基础设施工程师里广泛传播了。
MiniMax 让 M3 在无人工干预的条件下自主运行,任务是从头复现一篇 ICLR 2025 的论文。M3 连续工作了大约 12 小时,做了 18 次 commit,生成了 23 张图表。代码可以运行,实验可以复现,它没有总结论文,而是独立实现了方法论,运行了消融实验,生成了与原论文结果匹配的可视化图表。
这和标准编码 benchmark 有本质不同。SWE-bench 测的是修复已有代码里的 bug。ICLR 复现测的是从规格说明构建一个完整的研究 pipeline,管理依赖,编写实验,在失败时迭代,产出出版质量的图表。18 次 commit 的历史记录显示 M3 在几个小时里自己调试了自己的失败,没有人在旁边告诉它哪里错了。
「你不会失望的,M3 要刷新大家对这件事的想象,」Skyler Miao 在演示流传开之后发的评论,这段话在 ML 研究者里被大量转发。它准确抓住了社区反应,这不是一个 benchmark 更高的模型,这是一个展示了新型持续自主能力的模型。
社区真实反应
M3 的社区反响很热情,但很有针对性。HuggingFace 社区对 CUDA 内核演示的反应特别强烈,从 7.6% 的硬件利用率出发,经过 147 次自主迭代达到 71.3%,了解 CUDA 优化有多难的人对这个结果印象深刻。写能跑的代码是一回事,写能从硬件里榨出接近最优性能的代码是另一回事。
V4 Pro 的社区反应不同。作为竞赛编程和知识任务的明确 benchmark 赢家,V4 Pro 进来时就是强大的,社区讨论更多把它当成标准高质量编码的生产就绪选择,而不是讨论它的上限。两个模型吸引的是不同的用户群体,V4 Pro 吸引需要最好全能编码质量的开发者,M3 吸引构建需要连续运行几个小时的自主系统的团队。
同时测试了两个模型的开发者中有一个反复出现的观察,V4 Pro 在标准查询上响应更快。M3 在 100 万 token 上下文下 15 倍以上的推理速度提升,对长上下文任务很实质,但对短查询两者差距更小,一些用户反映 V4 Pro 在日常使用中感觉更流畅。
M3 的已知弱点,指令遵循
尽管演示结果令人印象深刻,早期 M3 用户标记了一个持续出现的弱点,紧约束指令下的指令遵循。
ICLR 演示展示了 M3 在开放式自主任务上的成功,目标明确但路径不明确。但当用户给 M3 严格约束,「只修改这三个文件」、「完全按照这个 JSON 格式回复」、「不要使用外部库」,失败率比一个前沿模型应有的水平要高。
「开放任务上非常出色,但需要严格格式遵守的时候很令人沮丧,」一个开发者说,「结构化输出任务上我不得不给 M3 调用加验证和重试逻辑,这些任务 V4 Pro 第一次就做对了。」
这映射到一个真实的架构取舍。为智能体开放任务优化的模型有时候会牺牲指令遵循的精确性。M3 看起来做了这个取舍。对于结构化输出生成、约束格式遵守,或者任何需要模型紧密遵循程序性指令的工作流,V4 Pro 更可靠。
怎么选
选 V4 Pro,需要最高 LiveCodeBench 天花板、竞赛编程、知识任务、纯文本工作流,或者需要严格指令遵循的结构化输出场景。
选 M3,需要长程智能体编码(SWE-bench Pro 领先)、多模态工作流、自主研究和工程任务(如 ICLR 演示所示),或者需要在长上下文下快速推理的生产系统。
两个都是开源模型,两个都支持 100 万 token 上下文,差异是真实的,但高度依赖具体任务类型。
