就在国产大模型开源(开放权重)浪潮如火如荼之际,MiniMax 正式将旗下旗舰模型 MiniMax-M2.7 的完整权重上传至 Hugging Face!这款拥有 229B(2290 亿)参数 的重磅模型,不仅在 SWE-Pro、Terminal Bench 2 等真实工程基准上表现出色,更被誉为“首个深度参与自身进化的模型”,通过 100 多轮自主优化实现了约 30% 的性能跃升。
这标志着继 GLM-5.1 之后,又一个国产顶级大模型以开放权重形式加入社区。两大国产旗舰均已开放权重,国产 AI 生态正以前所未有的速度加速追赶国际前沿。
1. GLM-5.1:SWE-Bench Pro 全球第三(开源第一),支持 8 小时长程任务自主迭代,真正意义上的 Coding Agent。
2. MiniMax M2.7:SWE-Pro 56.22%(追平 GPT-5.3-Codex)、Terminal Bench 2 57.0%,终端操控与复杂系统理解能力极强,同时具备原生 Agent Teams 多智能体协作能力。
MiniMax M2.7:专为 Agentic 与真实世界软件工程打造的 229B 旗舰
MiniMax-M2.7 由 MiniMaxAI 团队开发,定位于高级对话、复杂 Agent 任务和专业生产力场景。它不仅擅长代码生成,更能在真实工程环境中完成端到端项目交付、日志分析、Bug 排查、重构、代码安全审查、机器学习实验,以及 SRE 级别的系统级推理。
最引人注目的亮点是其自进化能力:M2.7 是全球首个深度参与自身进化的模型。在开发过程中,模型自主更新自身记忆、构建数十个复杂技能用于强化学习实验,并根据实验结果不断优化自身的学习流程。一版内部 M2.7 甚至自主优化编程脚手架超过 100 轮——分析失败轨迹、修改代码、运行评估、决定保留或回滚,最终实现约 30% 的性能提升。在 MLE Bench Lite(22 个真实机器学习竞赛)上,它更是拿下 66.6% 的奖牌率,仅次于 Opus-4.6 和 GPT-5.4。
亮眼基准表现:多维度接近甚至追平闭源 SOTA
M2.7 在多个贴近真实世界的基准上展现出了极强的竞争力,尤其适合构建专业 Coding Agent 和复杂工作流:
| 基准测试 | M2.7 得分 | 对比参考 |
|---|---|---|
| SWE-Pro(真实软件工程) | 56.22% | 追平 GPT-5.3-Codex,接近 Opus 顶级水平 |
| Terminal Bench 2(终端操控) | 57.0% | 复杂工程系统理解能力突出 |
| VIBE-Pro(端到端项目交付) | 55.6% | 接近 Opus 4.6,支持 Web/Android/iOS/仿真全场景 |
| SWE Multilingual | 76.5% | 多语言代码能力领先 |
| Multi SWE Bench | 52.7% | 真实工程场景优势明显 |
| GDPval-AA(专业工作) | ELO 1495 | 开源模型最高,超越 GPT-5.3 |
| MLE Bench Lite(22 个 ML 竞赛) | 66.6% 奖牌率 | 仅次于 Opus-4.6 和 GPT-5.4 |
| Toolathon | 46.3% | 全球顶尖 |
| MM Claw(40+ 复杂技能) | 97% 技能合规率 / 62.7% 端到端 | 接近 Sonnet 4.6 |
这些成绩表明,M2.7 不仅代码生成能力强劲,更在系统级理解、多轮工具调用、Agent 协作和真实生产力场景中表现出色。它能处理 Word/Excel/PPT 高保真多轮编辑,也能在监控指标、Trace 分析、数据库根因定位等 SRE 场景中做出专业决策。
核心能力亮点:原生 Agent Teams + 复杂技能库
- 原生多智能体协作:支持 Agent Teams,角色身份稳定、决策自主,可构建复杂 Agent 编排。
- 动态工具搜索与调用:内置复杂技能库(MM Claw 40+ 技能),Toolathon 表现顶尖。
- 终端与系统级操控:Terminal Bench 2 高分,真正理解复杂工程系统。
- 办公生产力:GDPval-AA 领先,可完成端到端分析师工作流(报告、模型、PPT)。
开源(开放权重)情况与许可协议详解
MiniMax 已将 M2.7 的完整模型权重(safetensors 格式)正式发布在 Hugging Face,支持 F32、BF16、FP8 等格式。同时也可在 ModelScope 下载。社区可使用 SGLang、vLLM、Transformers 等主流框架进行本地部署。
目前已有 36 个量化版本和 5 个基于它的微调模型在 Hugging Face 上线,社区活跃度正在快速上升。
如何下载与部署(实用指南)
- Hugging Face 主页:https://huggingface.co/MiniMaxAI/MiniMax-M2.7
- ModelScope 镜像:https://modelscope.cn/models/MiniMax/MiniMax-M2.7
- 推荐推理框架:
- SGLang(高性能推荐)
- vLLM
- Hugging Face Transformers
- 官方部署文档:模型页提供了 SGLang、vLLM、Transformers 的详细部署指南。
- 推荐推理参数:temperature=1.0, top_p=0.95, top_k=40
- 体验 Demo:MiniMax 同时开源了 OpenRoom 交互式演示项目(支持实时视觉反馈与场景交互),可在 https://www.openroom.ai/ 体验。
# 示例:使用 Transformers 快速加载(伪代码)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "MiniMaxAI/MiniMax-M2.7"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
# 后续可接入 SGLang / vLLM 实现高效推理
为什么 M2.7 值得关注?国产 Agent 时代的加速器
在 GLM-5.1 展现长程 Coding Agent 能力后,M2.7 以自进化 + 终端操控 + 多 Agent 协作进一步补齐了国产模型在“真实世界 Agent”上的拼图。它的开放权重大幅降低了本地部署门槛,让更多开发者能够:
- 在本地服务器上跑 229B 级 Agent
- 探索模型自我迭代的新范式
- 构建低成本、高性能的生产力工作流
尽管商业授权仍有门槛,但对于研究、开源社区和企业内部实验而言,这已经是巨大的利好。未来,随着社区量化、微调、Agent 框架的迭代,我们有望看到更多高性能、本地化、国产化的 AI Agent 解决方案落地。
结语:国产开源生态进入新阶段
从 GLM-5.1 到 MiniMax M2.7,国产大模型在 Coding Agent、真实工程能力和自我进化上的突破有目共睹。权重开放虽然在许可上仍有一定限制,但已经极大降低了技术门槛,为本土 AI 创新注入了强大动力。
欢迎大家立即前往 Hugging Face 下载体验,一起参与国产大模型的开源生态建设!未来属于那些真正能“自己迭代自己”的模型,而 M2.7 已经迈出了坚实的一步。