MiniMax M3 只有 428B 参数，凭什么拿来和 DeepSeek、Kimi、Qwen 比？

MiniMax M3 开源后，我第一眼注意到的是它其实没那么大。

428B 总参数，23B 激活参数。这个数字单独看当然不小，但放到现在国产开源旗舰模型里，就有点微妙了。

DeepSeek-V4 Pro 是 1.6T 参数，Kimi K2.7 Code 也到了约 1T。相比之下，MiniMax M3 只有 428B。

所以问题来了：

一个参数规模明显小一截的模型，为什么还值得拿来和 DeepSeek、Kimi、Qwen 放在一起比？

答案在于，它在 428B 这个规模下，塞进了几件现在很要命的东西：1M 上下文、23B 激活参数、原生多模态、MiniMax Sparse Attention，还有面向编程和 Agent 的定位。

这篇文章就从这个反差讲起。MiniMax M3 到底小在哪里，又为什么还能被放到这张桌子上。

一、MiniMax M3 到底开源了什么？

MiniMax M3 已经在 Hugging Face 上开放权重。

模型卡里能确认的信息大概是这些：

项目	MiniMax M3
模型类型	Image-Text-to-Text
架构	MoE
总参数	约 428B
激活参数	约 23B
上下文长度	1M context
模态能力	文本、图像、视频
许可证	minimax-community
推荐推理框架	Transformers、vLLM、SGLang

这里最值得看的，不是 428B，而是 23B 激活参数。

M3 是 MoE 架构。总参数放在那里，但每次推理只激活约 23B 参数。也就是说，它不是每次都把全部参数跑一遍，而是靠稀疏激活，在能力和成本之间找一个平衡点。

428B 这个数字的微妙就在这里。

它不是小模型。没人会说 428B 小。但它也没有大到 DeepSeek-V4 Pro、Kimi K2.7 Code 那个级别。真正让它值得讨论的，是它在这个体量里，把 1M 上下文、多模态、编程和 Agent 都放进来了。

二、428B 为什么还能拿来比较？

如果只看总参数，MiniMax M3 确实不是最大的。

放在几个国产开源旗舰旁边看，差距很直观：

模型	厂商	协议	总参数	激活参数	上下文	核心定位
MiniMax M3	MiniMax	minimax-community	约 428B	约 23B	1M	多模态 + 编程 + Agent
Qwen3.5-397B-A17B	阿里通义	Apache 2.0	397B	17B	256K，可扩展到约 1.01M	原生多模态、高能效旗舰
Qwen3.5-122B-A10B	阿里通义	Apache 2.0	122B	10B	256K，可扩展到约 1.01M	中等规模、多模态、部署友好
Kimi K2.7 Code	月之暗面	Modified MIT	约 1T	32B	256K	编程专项 Agent 模型
DeepSeek-V4 Pro	DeepSeek	MIT	1.6T	49B	1M	长上下文、Agentic Coding、推理

这张表里，MiniMax M3 的位置很清楚。

它没有 DeepSeek-V4 Pro 那么大的总参数，也没有 Kimi K2.7 Code 那种接近万亿级的规模。但它的上下文长度直接到了 1M，激活参数控制在 23B，同时还做了原生多模态。

M3 走的是另一条路：把复杂任务需要的几块能力拼在一起，推理时只激活 23B。

这就是”只有 428B 参数”值得讨论的地方。428B 真不小，但它在旗舰模型对比里没有靠体量压人，仍然有资格被拿出来讨论。

三、MiniMax M3 的关键，不是大，而是长上下文效率

MiniMax M3 最值得单独讲的技术点，是 MiniMax Sparse Attention，也就是 MSA。

长上下文现在很多模型都会讲。问题是，支持 1M 上下文，不等于 1M 上下文真的好用。

你可以把很多内容塞进去，但模型要付出计算成本。你可以让模型读很长的材料，但它不一定能抓住重点。你也可以让模型执行长任务，但它可能跑到一半就忘了最初要干什么。

所以长上下文真正难的地方，其实有两个：

一个是成本能不能压下来。

另一个是任务能不能持续推进。

M3 的 MSA 主要是在解决前一个问题。

官方模型卡写到，在 1M 上下文下，M3 相比 M2：

指标	提升
prefill 阶段	9 倍加速
decode 阶段	15 倍加速
每 token 计算量	降到 1/20

MSA 论文页里还提到，在一个 109B 参数的原生多模态模型上，MSA 在 1M context 下把 per-token attention compute 降低 28.4 倍，并在 H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding wall-clock speedup。

这些数字说明，M3 不是简单把上下文窗口拉长。它想解决的是百万级上下文怎么更便宜、更快地跑起来。

当然，话也不能说满。

快不等于准。长上下文模型最难的不是“能塞进去”，而是塞进去以后能不能找对信息、记住任务目标、不要中途跑偏。M3 在效率上给出了很强的信号，但真实任务表现还要看更多第三方评测。

四、编程能力：别急着说它第一

原文里有一些具体分数，比如 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、KernelBench Hard 28.8%。

这些数字我没有在 MiniMax M3 的 Hugging Face 模型卡里核到，所以不建议写成确定事实。

模型卡能确认的是：MiniMax 官方称 M3 在 long-horizon agentic benchmarks 上达到 frontier-level performance，并且在 coding 和 cowork 方面表现突出。

这句话可以写，但要写得克制一点。

M3 的编程能力，不应该被理解成“它会不会写一个函数”。

现在真正有价值的编程模型，考验的是一整条链路：读项目、理解需求、定位问题、改代码、跑测试、看到报错、继续修，最后交付。

这类任务很吃上下文，也很吃工具调用和自我纠错能力。

所以 M3 的编程看点在于，它不是单纯的代码补全模型，而是想进入长程编程协作场景。

如果把它和 Kimi、DeepSeek、Qwen 放一起看，几家的路线大概是这样：

模型	编程相关定位	更稳妥的判断
MiniMax M3	coding + cowork + long-horizon agentic benchmarks	更像均衡型长程协作模型
Kimi K2.7 Code	coding-focused agentic model	更偏编程专项，模型卡明确强调长程 coding 和 token 效率
DeepSeek-V4 Pro	Agentic、SWE、Terminal Bench 等评测较完整	更偏长上下文和 Agentic Coding 标杆路线
Qwen3.5-397B-A17B	多模态基础能力强，兼顾 coding 和 agent	更偏通用多模态旗舰，商业协议也更友好

所以，如果问“M3 编程是不是最强”，现在还不能这么下结论。

更稳的说法是：M3 靠长上下文、多模态、稀疏注意力和 Agent 定位，去抢复杂编程任务里的持续协作能力。参数规模只是背景。

五、Agent 能力：M3 想打的是“持续干活”

Agent 能力决定了一个模型能不能真正”干活”。它考验的是模型能不能像一个初级同事一样，自己拆步骤、调用工具、跟踪上下文、遇到问题换个办法，最后交付一个结果。

在这个方向上，MiniMax M3 的卖点挺明确。

它有 1M 上下文，有 MSA 来降低长上下文成本，有原生多模态，也有 coding 和 agent 标签。这些东西放在一起，指向的就是长程任务。

但这里还是要刹一下车。

原文里说“M3 在 Claw-Eval 端到端评测中拿到最高分”，这条我没有在 MiniMax M3 模型卡里核到。Kimi K2.7 Code 模型卡里有 Kimi Claw 24/7 Bench，但那是 Kimi 自家的长程 Agentic 评测，不能直接拿来证明 M3。

M3 的 Agent 想象空间来自这些能力的叠加，某一个榜单分数说明不了全部。

它能看更长的任务历史，长上下文成本又被 MSA 往下压了一截；它还能处理图像和视频，不是只看文本；再加上 coding/cowork 的定位，它确实比普通聊天模型更接近“工作模型”。

如果说过去的大模型竞争像是在比“谁回答得更聪明”，那 M3 这个方向更像是在比“谁能把事情做下去”。

这就是它虽然只有 428B 参数，却仍然能进入国产开源旗舰讨论的原因。

六、开源协议：M3 不是最省心的那个

如果只是个人体验，协议可能不是第一优先级。

但如果公司想把模型放进产品，协议就很关键。

模型	协议	商业使用要点
MiniMax M3	minimax-community	商用需展示 “Built with MiniMax M3”；年收入超过 2000 万美元需提前书面授权，未超过也需邮件通知
Qwen3.5-397B-A17B	Apache 2.0	商业使用更宽松
Qwen3.5-122B-A10B	Apache 2.0	商业使用更宽松
Kimi K2.7 Code	Modified MIT	大体宽松，但超大规模商业产品需展示 “Kimi K2.7 Code”
DeepSeek-V4 Pro	MIT	商业使用宽松

这一点必须讲清楚。

MiniMax M3 是开放权重，但不是“随便商用不用管”。

它的 minimax-community 许可证明确写了商业使用条件。对大公司来说，这意味着法务流程不可省。对小团队来说，门槛不算特别高，但也不是 Apache 2.0 或标准 MIT 那种简单模式。

Kimi K2.7 Code 也不能简单写成 MIT。它是 Modified MIT，模型卡和 LICENSE 都写了额外条件：如果商业产品或服务超过 1 亿月活，或月收入超过 2000 万美元，需要在用户界面显著展示 “Kimi K2.7 Code”。

所以，如果你的第一目标是商业授权最省心，Qwen 的 Apache 2.0 和 DeepSeek 的 MIT 更占优势。

如果只是技术尝试、私有化验证、研究和原型开发，M3 的协议问题没那么吓人，但 LICENSE 还是要提前读。

结尾：MiniMax M3 的惊讶点，恰恰是它没有那么大

把 MiniMax M3 放到国产开源旗舰里看，最有意思的地方不是它参数最大。

恰恰相反，它没有那么大。

DeepSeek-V4 Pro 是 1.6T，Kimi K2.7 Code 约 1T，Qwen3.5-397B-A17B 是 397B 但只激活 17B。MiniMax M3 卡在一个很微妙的位置：428B 总参数，23B 激活参数，数字不夸张，但该有的东西不少。

它有 1M 上下文，有原生多模态，有 MSA，有 coding 和 agent 定位，还有开放权重。

所以 M3 的故事不是“参数碾压”。

它更像是在回答另一个问题：

以前大家看模型，最关心它会不会聊天、会不会写代码。现在问题变了：能不能读很长的上下文、处理图像和视频、调用工具、在一个任务里持续推进，像一个初级同事一样把事情做完？

从这个角度看，MiniMax M3 的位置就清楚了。它不是参数最大的那个，但它指向了一个方向：开源模型正在从”会回答”走向”能工作”。

最后问你一个问题：

如果一个开源模型参数不是最大，但它有更长上下文、更强 Agent 能力和多模态能力，你会优先考虑它吗？

我想看看大家现在选模型，到底更看重参数规模，还是更看重真实任务能力。

MiniMax M3 只有 428B 参数，凭什么拿来和 DeepSeek、Kimi、Qwen 比？

MiniMax M3 只有 428B 参数，凭什么拿来和 DeepSeek、Kimi、Qwen 比？

一、MiniMax M3 到底开源了什么？

二、428B 为什么还能拿来比较？

三、MiniMax M3 的关键，不是大，而是长上下文效率

四、编程能力：别急着说它第一

五、Agent 能力：M3 想打的是“持续干活”

六、开源协议：M3 不是最省心的那个

结尾：MiniMax M3 的惊讶点，恰恰是它没有那么大

相关推荐