MiniMax M3 只有 428B 参数,凭什么拿来和 DeepSeek、Kimi、Qwen 比?

MiniMax M3 只有 428B 参数,凭什么拿来和 DeepSeek、Kimi、Qwen 比?

MiniMax M3 开源后,我第一眼注意到的是它其实没那么大。

428B 总参数,23B 激活参数。这个数字单独看当然不小,但放到现在国产开源旗舰模型里,就有点微妙了。

DeepSeek-V4 Pro 是 1.6T 参数,Kimi K2.7 Code 也到了约 1T。相比之下,MiniMax M3 只有 428B

\

所以问题来了:

一个参数规模明显小一截的模型,为什么还值得拿来和 DeepSeek、Kimi、Qwen 放在一起比?

答案在于,它在 428B 这个规模下,塞进了几件现在很要命的东西:1M 上下文、23B 激活参数、原生多模态、MiniMax Sparse Attention,还有面向编程和 Agent 的定位。

这篇文章就从这个反差讲起。MiniMax M3 到底小在哪里,又为什么还能被放到这张桌子上。

一、MiniMax M3 到底开源了什么?

MiniMax M3 已经在 Hugging Face 上开放权重。

模型卡里能确认的信息大概是这些:

项目 MiniMax M3
模型类型 Image-Text-to-Text
架构 MoE
总参数 约 428B
激活参数 约 23B
上下文长度 1M context
模态能力 文本、图像、视频
许可证 minimax-community
推荐推理框架 Transformers、vLLM、SGLang

这里最值得看的,不是 428B,而是 23B 激活参数。

M3 是 MoE 架构。总参数放在那里,但每次推理只激活约 23B 参数。也就是说,它不是每次都把全部参数跑一遍,而是靠稀疏激活,在能力和成本之间找一个平衡点。

428B 这个数字的微妙就在这里。

它不是小模型。没人会说 428B 小。但它也没有大到 DeepSeek-V4 Pro、Kimi K2.7 Code 那个级别。真正让它值得讨论的,是它在这个体量里,把 1M 上下文、多模态、编程和 Agent 都放进来了。

二、428B 为什么还能拿来比较?

如果只看总参数,MiniMax M3 确实不是最大的。

放在几个国产开源旗舰旁边看,差距很直观:

模型 厂商 协议 总参数 激活参数 上下文 核心定位
MiniMax M3 MiniMax minimax-community 约 428B 约 23B 1M 多模态 + 编程 + Agent
Qwen3.5-397B-A17B 阿里通义 Apache 2.0 397B 17B 256K,可扩展到约 1.01M 原生多模态、高能效旗舰
Qwen3.5-122B-A10B 阿里通义 Apache 2.0 122B 10B 256K,可扩展到约 1.01M 中等规模、多模态、部署友好
Kimi K2.7 Code 月之暗面 Modified MIT 约 1T 32B 256K 编程专项 Agent 模型
DeepSeek-V4 Pro DeepSeek MIT 1.6T 49B 1M 长上下文、Agentic Coding、推理

这张表里,MiniMax M3 的位置很清楚。

它没有 DeepSeek-V4 Pro 那么大的总参数,也没有 Kimi K2.7 Code 那种接近万亿级的规模。但它的上下文长度直接到了 1M,激活参数控制在 23B,同时还做了原生多模态。

M3 走的是另一条路:把复杂任务需要的几块能力拼在一起,推理时只激活 23B。

这就是”只有 428B 参数”值得讨论的地方。428B 真不小,但它在旗舰模型对比里没有靠体量压人,仍然有资格被拿出来讨论。

三、MiniMax M3 的关键,不是大,而是长上下文效率

MiniMax M3 最值得单独讲的技术点,是 MiniMax Sparse Attention,也就是 MSA。

长上下文现在很多模型都会讲。问题是,支持 1M 上下文,不等于 1M 上下文真的好用。

你可以把很多内容塞进去,但模型要付出计算成本。你可以让模型读很长的材料,但它不一定能抓住重点。你也可以让模型执行长任务,但它可能跑到一半就忘了最初要干什么。

所以长上下文真正难的地方,其实有两个:

一个是成本能不能压下来。

另一个是任务能不能持续推进。

M3 的 MSA 主要是在解决前一个问题。

官方模型卡写到,在 1M 上下文下,M3 相比 M2:

指标 提升
prefill 阶段 9 倍加速
decode 阶段 15 倍加速
每 token 计算量 降到 1/20

MSA 论文页里还提到,在一个 109B 参数的原生多模态模型上,MSA 在 1M context 下把 per-token attention compute 降低 28.4 倍,并在 H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding wall-clock speedup。

这些数字说明,M3 不是简单把上下文窗口拉长。它想解决的是百万级上下文怎么更便宜、更快地跑起来。

当然,话也不能说满。

快不等于准。长上下文模型最难的不是“能塞进去”,而是塞进去以后能不能找对信息、记住任务目标、不要中途跑偏。M3 在效率上给出了很强的信号,但真实任务表现还要看更多第三方评测。

四、编程能力:别急着说它第一

原文里有一些具体分数,比如 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、KernelBench Hard 28.8%。

这些数字我没有在 MiniMax M3 的 Hugging Face 模型卡里核到,所以不建议写成确定事实。

模型卡能确认的是:MiniMax 官方称 M3 在 long-horizon agentic benchmarks 上达到 frontier-level performance,并且在 coding 和 cowork 方面表现突出。

这句话可以写,但要写得克制一点。

M3 的编程能力,不应该被理解成“它会不会写一个函数”。

现在真正有价值的编程模型,考验的是一整条链路:读项目、理解需求、定位问题、改代码、跑测试、看到报错、继续修,最后交付。

这类任务很吃上下文,也很吃工具调用和自我纠错能力。

所以 M3 的编程看点在于,它不是单纯的代码补全模型,而是想进入长程编程协作场景。

如果把它和 Kimi、DeepSeek、Qwen 放一起看,几家的路线大概是这样:

模型 编程相关定位 更稳妥的判断
MiniMax M3 coding + cowork + long-horizon agentic benchmarks 更像均衡型长程协作模型
Kimi K2.7 Code coding-focused agentic model 更偏编程专项,模型卡明确强调长程 coding 和 token 效率
DeepSeek-V4 Pro Agentic、SWE、Terminal Bench 等评测较完整 更偏长上下文和 Agentic Coding 标杆路线
Qwen3.5-397B-A17B 多模态基础能力强,兼顾 coding 和 agent 更偏通用多模态旗舰,商业协议也更友好

所以,如果问“M3 编程是不是最强”,现在还不能这么下结论。

更稳的说法是:M3 靠长上下文、多模态、稀疏注意力和 Agent 定位,去抢复杂编程任务里的持续协作能力。参数规模只是背景。

五、Agent 能力:M3 想打的是“持续干活”

Agent 能力决定了一个模型能不能真正”干活”。它考验的是模型能不能像一个初级同事一样,自己拆步骤、调用工具、跟踪上下文、遇到问题换个办法,最后交付一个结果。

在这个方向上,MiniMax M3 的卖点挺明确。

它有 1M 上下文,有 MSA 来降低长上下文成本,有原生多模态,也有 coding 和 agent 标签。这些东西放在一起,指向的就是长程任务。

但这里还是要刹一下车。

原文里说“M3 在 Claw-Eval 端到端评测中拿到最高分”,这条我没有在 MiniMax M3 模型卡里核到。Kimi K2.7 Code 模型卡里有 Kimi Claw 24/7 Bench,但那是 Kimi 自家的长程 Agentic 评测,不能直接拿来证明 M3。

M3 的 Agent 想象空间来自这些能力的叠加,某一个榜单分数说明不了全部。

它能看更长的任务历史,长上下文成本又被 MSA 往下压了一截;它还能处理图像和视频,不是只看文本;再加上 coding/cowork 的定位,它确实比普通聊天模型更接近“工作模型”。

如果说过去的大模型竞争像是在比“谁回答得更聪明”,那 M3 这个方向更像是在比“谁能把事情做下去”。

这就是它虽然只有 428B 参数,却仍然能进入国产开源旗舰讨论的原因。

六、开源协议:M3 不是最省心的那个

如果只是个人体验,协议可能不是第一优先级。

但如果公司想把模型放进产品,协议就很关键。

模型 协议 商业使用要点
MiniMax M3 minimax-community 商用需展示 “Built with MiniMax M3”;年收入超过 2000 万美元需提前书面授权,未超过也需邮件通知
Qwen3.5-397B-A17B Apache 2.0 商业使用更宽松
Qwen3.5-122B-A10B Apache 2.0 商业使用更宽松
Kimi K2.7 Code Modified MIT 大体宽松,但超大规模商业产品需展示 “Kimi K2.7 Code”
DeepSeek-V4 Pro MIT 商业使用宽松

这一点必须讲清楚。

MiniMax M3 是开放权重,但不是“随便商用不用管”。

它的 minimax-community 许可证明确写了商业使用条件。对大公司来说,这意味着法务流程不可省。对小团队来说,门槛不算特别高,但也不是 Apache 2.0 或标准 MIT 那种简单模式。

Kimi K2.7 Code 也不能简单写成 MIT。它是 Modified MIT,模型卡和 LICENSE 都写了额外条件:如果商业产品或服务超过 1 亿月活,或月收入超过 2000 万美元,需要在用户界面显著展示 “Kimi K2.7 Code”。

所以,如果你的第一目标是商业授权最省心,Qwen 的 Apache 2.0 和 DeepSeek 的 MIT 更占优势。

如果只是技术尝试、私有化验证、研究和原型开发,M3 的协议问题没那么吓人,但 LICENSE 还是要提前读。

结尾:MiniMax M3 的惊讶点,恰恰是它没有那么大

把 MiniMax M3 放到国产开源旗舰里看,最有意思的地方不是它参数最大。

恰恰相反,它没有那么大。

DeepSeek-V4 Pro 是 1.6T,Kimi K2.7 Code 约 1T,Qwen3.5-397B-A17B 是 397B 但只激活 17B。MiniMax M3 卡在一个很微妙的位置:428B 总参数,23B 激活参数,数字不夸张,但该有的东西不少。

它有 1M 上下文,有原生多模态,有 MSA,有 coding 和 agent 定位,还有开放权重。

所以 M3 的故事不是“参数碾压”。

它更像是在回答另一个问题:

以前大家看模型,最关心它会不会聊天、会不会写代码。现在问题变了:能不能读很长的上下文、处理图像和视频、调用工具、在一个任务里持续推进,像一个初级同事一样把事情做完?

从这个角度看,MiniMax M3 的位置就清楚了。它不是参数最大的那个,但它指向了一个方向:开源模型正在从”会回答”走向”能工作”。

最后问你一个问题:

如果一个开源模型参数不是最大,但它有更长上下文、更强 Agent 能力和多模态能力,你会优先考虑它吗

我想看看大家现在选模型,到底更看重参数规模,还是更看重真实任务能力。