6 月这半个月,三家排队发:MiniMax M3(6/1)、Kimi K2.7-Code(6/12)、GLM-5.2(6/13)。方向出奇一致——长上下文、写代码、干 Agent、开放权重。
那到底谁更强?这篇文章不绕弯子,直接给判断。
0. 先把结论摆桌面上
没有单一赢家,但有分场景的明确赢家。一句话总结:
| 你的核心诉求 | 选谁 | 理由 |
|---|---|---|
| 配置最满、什么都要 | MiniMax M3 | 1M 长上下文 + 原生多模态 + 开放权重,全球唯一三件套一次给齐 |
| 省钱、跑量、追求 token 效率 | Kimi K2.7-Code | 思考 token 少 30%,单价是 Claude Opus 的几分之一 |
| 代码品质、赌潜力、不差钱 | GLM-5.2 | 自研 ZCode 闭环 + MIT 开源在即,独立评测人评价"能伪装成 Opus" |
| 当下要硬分数支撑 | MiniMax M3 | 三家里唯一在公开权威榜 SWE-Bench Pro 上有交代 |
| 要立即可用、权重已落地 | MiniMax M3 / Kimi | 两家权重都在 HuggingFace 上,GLM 的"下周"还没到 |
下面逐家拆,然后横着比,最后给场景化建议。
一、MiniMax M3:配置最满,当下最"能打"
发布:6 月 1 日 | 4560 亿参数 MoE | 1M 上下文 | 开放权重(已落地)
M3 用三个字概括:长、强、全。
- 长——1M token 上下文,关键是"用得起"。自研稀疏注意力 MSA,100 万上下文下每 token 计算量约为上代的 1/20,prefill 提速 9 倍。长上下文不再是"能塞进去",而是"塞进去还跑得动"。
- 强——SWE-Bench Pro 59.0%,Terminal-Bench 2.1 66.0%。官方称超过 GPT-5.5 和 Gemini 3.1 Pro。这是三家里唯一在公开权威代码榜上有交代的。
- 全——原生多模态,图、视频、桌面操作都能进。
三件事同时集齐 + 开放权重,M3 目前是全球头一个。
价格也实在:1M 内输入 ¥2.1/百万 token、输出 ¥8.4/百万 token(永久五折后)。
但它不是没有短板:
- 和最顶尖的 Claude Opus 4.8(69.2%)还差约 10 个百分点——是"逼近",不是"追平"。
- **59% 不是裸模型分数。**官方明确:SWE-Bench Pro 跑在"内部 infrastructure + Claude Code scaffold"上。也就是说,这是"MiniMax M3 模型 + Claude Code 框架"的组合成绩。Kimi、GLM 同理,各家 scaffold 不同——这一点决定了横向排名不能太当真。
- 实测有冷水:53AI、302.AI 都反映 M3 有时"读了一大堆文件,最后输出质量一般",即时响应有延迟。读得进去 ≠ 写得出来,这是 M3 下一道坎。
一句话:M3 是当下"最全面、最能直接上手"的那个。要立刻干活、要长上下文、要多模态,选它不会错。
二、Kimi K2.7-Code:最省,但跑分别全信
发布:6 月 12 日 | 1T 总参 / 32B 激活 MoE | 256K 上下文 | 开放权重(已落地)
K2.7-Code 的卖点只有一个字:省。
- 相比上一代 K2.6,思考 token 平均减少约 30%,长上下文里指令遵循更可靠。
- 官方自家 Code Bench v2 涨了 21.8%。
- 价格延续月之暗面一贯打法:输入 $0.95/百万 token、输出 $4.00/百万 token(cache hit 低至 $0.19),约为 Claude Opus 的几分之一。
月之暗面看准了当下 Coding Agent 真正的痛点——不是"能不能做",而是"做一遍要烧多少钱 token"。所以这一代押的是效率,方向是对的。权重也直接上了 HuggingFace,支持 Claude Code、Cline / RooCode 接入。
但有一个争议必须摆出来:
- 官方那组大涨(Code Bench +21.8%、Program Bench、MLS Lite 等)是自家基准。VentureBeat 直接写了标题——"practitioners say benchmarks don't check out"(从业者认为基准数据对不上)。
- 独立测试里发现了 kernel regressions,第三方在公开基准上的完整验证还缺位。
- 有人指出 Kimi 在 SWE-bench 上用的是自定义测试框架,这能解释模型卡和 API 实测之间的落差。
一句话:K2.7-Code 比 K2.6 强、方向对、token 效率提升是真的能感受到的——但"强多少"先别急着全信厂商数字,等独立榜单。在"省钱 + 立刻可用"这个赛道,它现在是性价比最高的一个。
三、GLM-5.2:最有潜力,但还没到兑现日
发布:6 月 13 日(配合 ZCode 3.0) | 参数架构未公开 | 可选 1M 上下文 | MIT 开源"下周"兑现
GLM-5.2 这一家我要说得比前两家更克制,因为能确认的公开信息最少。
可以确认的:
- 立即可用于所有 GLM Coding Plan 用户(Lite / Pro / Max / Team),配置项
glm-5.2[1m]可启用 1M 上下文。 - 支持 High / Max 两种 thinking effort,官方推荐 coding 任务用 Max 模式。
- 计划下周:API + Chatbot 上线,并按 MIT License 开源完整权重。
- 工具兼容性强:支持 Claude Code、OpenClaw、Cline,改一行配置即可切换——被视为"避免 vendor lock-in"的正确做法。
- ZCode 3.0 把第三方 Agent 框架全拆了,换成自研内核,赌的是"模型 + 自家 Agent 工具"的闭环。
不能确认、但容易被误传的:
- GLM-5.2 的完整参数和架构——目前没有公开模型卡,是否沿用前代 744B/40B,没有官方佐证。
- GLM-5.2 在 SWE-Bench Pro / Terminal-Bench 上的成绩——公开渠道查不到。网上流传的 58.4% 其实是上一代 GLM-5.1 的成绩,不是 5.2。
- 多模态能力——Coding Plan 文档主要以 text 输入和 coding agent 场景为主,暂不下结论。
但有两个信号分量很重:
一是时间窗口的政治意味。GLM-5.2 MIT 开源的窗口,正好赶上美国对 Anthropic Fable 5 / Mythos 5 限制对外访问。"一边把顶级模型锁起来,一边把自家旗舰撒出去"——这个对比在 X 上讨论热度最高,被视为中国 AI 在"开放 vs 封闭"赛道上的主动出击。
二是独立评测人的判断。知乎答主 toyama nao(业内称"大模型观测员",常年维护公信力较高的"nao 榜")给 GLM-5.2 的定性是**"跻身第一梯队"**,最狠的一句是:
通过中转站用 Opus 的人,都必须面对一个问题——你用的 Opus 如果是 GLM-5.2 冒充的,你可能分辨不出来,甚至表现更好。
考虑到中转站冒充是当下真实存在的灰产,这个评价的分量不轻。但这是早期口碑,不是 benchmark 级硬证据。
价格路线也跟前两家不一样:GLM-5.2 被对标成 Claude Opus 那一档,API 高峰期 3 倍计费;GLM Coding Plan 分 Lite / Pro / Max,大致 ¥20–49 / ¥100–149 / ¥469 每月。智谱走的是"高定位、高收费",赌的是专业用户愿意为品质付费。
GLM 的老问题也还在:慢。有开发者对比过,GLM 一次做对要花 10 分钟,DeepSeek 两次做对只要 6 分钟;LINUX DO 测评也提到 5.2 的上下文注意力可能还不如上一代 4.6。品质在线,但速度和稳定性,是它要对得起那个"Opus 价"还得补的功课。
一句话:GLM-5.2 是三家里"上限最高、悬念最大"的——口碑最响、姿态最开放,但硬数据最缺、价格最贵、还没真正开源。它强不强,等下周模型卡,也等你的终端。
四、六个维度横着比一遍
把三家放到同一张表里,直接看:
| 维度 | MiniMax M3 | Kimi K2.7-Code | GLM-5.2 |
|---|---|---|---|
| 长上下文 | 🥇 1M,且计算成本可控(MSA) | 🥉 256K | 🥈 可选 1M(glm-5.2[1m]) |
| 公开权威跑分 | 🥇 SWE-Bench Pro 59.0%(权威榜) | 🥈 自家 Code Bench v2(被质疑) | ❌ 暂无公开数据 |
| Token 效率 / 性价比 | 🥈 中等 | 🥇 思考 token −30%,单价最低 | 🥉 对标 Opus,最贵 |
| 多模态 | 🥇 原生多模态(图/视频/桌面) | 未确认 | 未确认 |
| 开放程度 | 🥈 开放权重(minimax-community,非 OSI 开源) | 🥈 开放权重(已落地) | 🥇 计划 MIT 开源(尚未兑现) |
| Agent 工具闭环 | 🥉 借 Claude Code 当 scaffold | 🥈 兼容主流工具 | 🥇 自研 ZCode 内核,深度绑定 |
| 立即可用度 | 🥇 权重已放、能上手 | 🥇 权重已放、能上手 | 🥉 多数人还得走 Coding Plan 付费 |
注意:这张表里的跑分一行,严格说不能横向比。 因为 scaffold 不同:
- MiniMax M3 的 SWE-Bench Pro → 内部 infrastructure + Claude Code scaffold。
- Kimi 的成绩 → Kimi Code CLI;对比组里 GPT-5.5 用 Codex,Opus 用 Claude Code。
- GLM → 配合自家 ZCode。
scaffold 不同,同一个模型换一个 agent 框架分数就可能变。这些数字反映的是"模型 + agent 框架 + 评测设置"的组合能力,不是纯模型裸能力排名。
五、所以,到底谁更强
分场景,直接给答案:
🏆 综合最强、当下最能打 → MiniMax M3
理由:唯一在公开权威榜上有交代、长上下文计算成本最低、多模态原生、权重已落地、价格也实在。它是三家里"短板最少"的一个。如果你今天就要选一个上手,选 M3。
💰 性价比之王、跑量首选 → Kimi K2.7-Code
理由:token 效率是真的提升,单价是 Opus 的几分之一,月之暗明显然在用低价换量。如果你的场景是大量调用、对成本敏感、愿意接受跑分还没被独立验证,选 Kimi。
🚀 潜力最大、品质赌注最高 → GLM-5.2
理由:独立评测人评价"能伪装 Opus"、MIT 开源姿态最彻底、自研 ZCode 闭环最完整。但代价是——没硬分数、价格最贵、还没真正开源。如果你是专业开发者、愿意为品质付费、能接受"等一等",GLM-5.2 的上限可能是三家最高的。
一张"如果你是 X"的速查
- 我是大厂工程师,要处理几十万行的真实代码库 → 先试 M3(1M 上下文 + 多模态),不行再换 GLM。
- 我是独立开发者 / 创业团队,烧不起 token → Kimi K2.7-Code,性价比碾压。
- 我是品质党,宁可慢一点也要一次做对 → GLM-5.2 + ZCode,赌它的 Opus 级品质。
- 我什么都想要、又不想被一家绑死 → M3(开放权重 + 兼容多工具)。
六、比"谁更强"更重要的一件事
跑分会越来越好看,发布节奏会越来越密。但这一波三家真正告诉我们的,不是"谁更强",而是方向变了:
- MiniMax 死磕长上下文的计算成本。
- Kimi 死磕 token 效率。
- 智谱死磕代码品质和工具闭环。
没有一家在喊"我参数最大""我通用能力最全"。它们都在回答一个具体的问题:Agent 真正落地的时候,哪里还卡着。 这是一个成熟的信号。
另一个信号是开放权重。三家全都开放或计划开放——这在一年前还不常见。当国产厂商愿意把旗舰权重放出来,说明它们对"靠能力挣钱"已经比"靠闭源护城河"更有信心了。 而 GLM-5.2 把这个信号推到了最刺眼的对比上:MIT 开源的窗口,正好是美国封禁 Anthropic 顶级模型对外访问的窗口。"一边锁起来,一边撒出去"——无论最后谁赢,这个姿态本身就是 2026 年中国 AI 给全球开发者的明确信号。
但作为使用者,真正该做的只有一件事:拿自己手上的真实代码库,跑一遍。
- MiniMax M3 的 1M 上下文,能不能在你那个几十万行的项目里不漂?
- Kimi K2.7-Code 省 token,省的是真有用功还是省到活儿也省没了?
- GLM-5.2 到底配不配得上它对标的那个价?
这三个问题,厂商的发布会回答不了,只有你自己的终端能回答。