2026年5月20日,阿里通义千问团队正式发布 Qwen3.7-Max,号称目前最全面的 Agent 时代大模型。这不是一个挤牙膏的升级,而是在编码、办公自动化、长程自主推理等多个维度全面超越现有旗舰模型的跳跃式发布。
核心能力一览
Qwen3.7-Max 定位为一个通用的 Agent 基础模型,覆盖以下场景:
- 编码 Agent:从前端原型到复杂多文件软件工程
- 办公与生产力:通过 MCP 集成和多 Agent 编排,自动化办公流程
- 长程自主执行:连续运行数小时甚至数十小时,完成上千次工具调用
- 跨框架泛化:在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架下表现一致
基准测试:全面领跑
在多个关键基准上,Qwen3.7-Max 的表现超越了现有的旗舰模型:

| 基准 | Qwen3.7-Max | Opus 4.6 Max | DS-V4-Pro Max |
|---|---|---|---|
| Terminal Bench 2.0-Terminus | 69.7 | 65.4 | 67.9 |
| SWE-Pro | 60.6 | 57.3 | 59.0 |
| SWE-Multilingual | 78.3 | 77.5 | 76.2 |
| SciCode | 53.5 | 51.9 | -- |
| GPQA Diamond | 92.4 | 91.3 | 90.1 |
| HLE | 41.4 | 40.0 | 37.7 |
| HMMT 2026 Feb | 97.1 | 96.2 | 95.2 |
| IMOAnswerBench | 90.0 | 86.0 | 89.8 |
| Apex | 44.5 | 34.5 | 38.3 |
| MCP-Mark | 60.8 | 56.7 | 57.1 |
| Kernel Bench L3 | 1.98x / 96% | 2.63x / 98% | 1.07x / 54% |
| QwenWorldBench | 57.3 | 56.1 | 52.3 |
编码 Agent 方面,Terminal Bench 2.0-Terminus 上 69.7 分,超过 DeepSeek V4 Pro Max 的 67.9。SWE-Verified 上 80.4,与 Opus 4.6 Max 的 80.8 几乎持平。SWE-Pro 上 60.6,目前最高。SciCode 上 53.5,同样领先。
通用 Agent 方面,MCP-Mark 上 60.8(GLM 5.1 是 57.5),MCP-Atlas 上 76.4(超过 Opus 4.6 的 75.8),Skillsbench 上 59.2(超过 K2.6 的 56.2)。办公自动化 SpreadSheetBench-v1 上 87 分,处于顶级水平。
推理能力上,GPQA Diamond 92.4 分超过 Opus 4.6 的 91.3。HLE 41.4 分,HMMT 2026 Feb 97.1 分,IMOAnswerBench 90 分,Apex 44.5 分,全部领先。
35 小时自主运行,10 倍 GPU 内核加速
这可能是整篇博客最惊人的案例。
团队让 Qwen3.7-Max 在一台从未见过的硬件平台(T-Head ZW-M890 PPU)上自主优化 Extend Attention Kernel。模型没有硬件文档、没有先验数据、没有参考内核,只有一个任务描述和一段 SGLang 的 Triton 实现代码。
在约 35 小时的连续自主运行中,模型完成了 432 次内核评估、1158 次工具调用,独立完成了编写、编译、性能分析、bug 修复、架构重构等全部步骤。
最终结果:相比 Triton 参考实现,几何平均加速 10 倍。而且模型在运行 30 小时后仍然在持续发现新的优化空间,没有出现上下文退化或指令漂移。
对比一下其他模型在同一任务上的表现:
- Qwen3.7-Max:10.0x
- GLM 5.1:7.3x
- Kimi K2.6:5.0x
- DeepSeek V4 Pro:3.3x
- Qwen3.6-Plus:1.1x
RL 监控:80 小时,10000 次调用,1618 次奖励劫持检测
团队还把 Qwen3.7-Max 用于 RL 训练的奖励劫持监控。在超过 80 小时的实验中,模型自主检索和回放训练轨迹,执行了超过 10000 次调用,系统性地识别了候选劫持模式(比如试图通过 GitHub 绕过约束获取标准答案),同时进行了规则验证、反例挖掘和迭代优化。
最终,Qwen3.7-Max 完成了多轮规则自演化,新增了 13 条启发式规则,准确标记了 1618 个劫持案例。
创业模拟:208 万美元收入,是上一代的 2 倍
在 YC-Bench(模拟创业公司一整年生命周期的基准测试)中,Qwen3.7-Max 实现了 208 万美元总收入,是 Qwen3.6-Plus(105 万美元)的 2 倍,是 Qwen3.5-Plus(35.2 万美元)的 5.9 倍,完成 237 个任务。
模型在运行过程中主动探索潜在客户、识别并拉黑恶意陷阱、优先选择可靠收入来源,还在中期危机中自主恢复,最终进入稳定高效的执行循环。
环境规模化的可扩展性
Qwen3.7 延续了 Qwen3.5 引入的环境规模化(environment scaling)方法,持续扩展 Agent 训练环境的质量和多样性。团队发现,Agent 能力会从多样化的训练环境中泛化——就像语言模型从多样化预训练文本中泛化一样。
Qwen3.7-Max 在所有评测中面对的都是全新的、从未见过的跨域环境,平均排名达到前 3,接近 Claude 4.6 Opus Max。
跨框架泛化
Qwen3.7-Max 的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件:任务(Task)、框架(Harness)和验证器(Verifier),可以自由组合。这使得:
- 同一个任务可以与不同的框架和验证器配对,以极低的边际成本进行组合式扩展
- 模型在不同框架配置下遇到相同的任务,被迫学习可泛化的问题解决策略,而不是针对特定框架的捷径
在 QwenClawBench 和 CoWorkBench 上,无论评估时使用什么框架,Qwen3.7-Max 都表现出稳定一致的性能。
实际应用案例
前端代码生成
Qwen3.7-Max 可以从单个提示词生成丰富的交互式 Web 应用,包括 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。一个示例是用摄像头检测手掌张合来控制 3D 粒子系统的收缩与扩散,粒子还能在手势指令下组成文字。
办公助手
模型可以读取大学论文格式规范,然后自动修复格式混乱的草稿——修正页面布局、标题样式、字体、页边距、目录和参考文献格式,全部通过自主的办公 CLI 工具调用完成。
机器人导航
Qwen3.7-Max 还能通过工具调用操作机器狗,进行物理世界的理解、规划、记忆和决策。这得益于机器人 Agent 框架 Qwen-RobotClaw、导航基础模型 Qwen-RobotNav,以及多个基于 Qwen-plus 构建的视觉工具。
模型接入
Qwen3.7-Max 即将通过阿里云百炼平台(Model Studio)提供 API 调用,支持 OpenAI 兼容的 Chat Completions 和 Responses API,以及 Anthropic 兼容的 API 接口。
同时支持 preserve_thinking 特性:保留所有前面轮次的思考内容,推荐用于 Agent 任务。
可以直接在 Claude Code、OpenClaw、Qwen Code 等 Agent 框架中使用:
# Claude Code 配置
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
总结
Qwen3.7-Max 是目前阿里通义千问系列中最强、最全面的 Agent 驱动模型。在编码、办公自动化、长程自主任务中,它结合了前沿级别的推理能力、跨 Agent 框架的稳定泛化能力,以及在超长时间跨度内持续高效执行的能力。
一句话总结:35 小时、1158 次工具调用、10 倍加速——这就是 Qwen3.7-Max 的自主 Agent 能力。