Qwen3.7-Max 发布:Agent 时代的全面领先

2026年5月20日,阿里通义千问团队正式发布 Qwen3.7-Max,号称目前最全面的 Agent 时代大模型。这不是一个挤牙膏的升级,而是在编码、办公自动化、长程自主推理等多个维度全面超越现有旗舰模型的跳跃式发布。

核心能力一览

Qwen3.7-Max 定位为一个通用的 Agent 基础模型,覆盖以下场景:

  • 编码 Agent:从前端原型到复杂多文件软件工程
  • 办公与生产力:通过 MCP 集成和多 Agent 编排,自动化办公流程
  • 长程自主执行:连续运行数小时甚至数十小时,完成上千次工具调用
  • 跨框架泛化:在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架下表现一致

基准测试:全面领跑

在多个关键基准上,Qwen3.7-Max 的表现超越了现有的旗舰模型:

在多个关键基准上,Qwen3.7-Max 的表现超越了现有的旗舰模型

基准 Qwen3.7-Max Opus 4.6 Max DS-V4-Pro Max
Terminal Bench 2.0-Terminus 69.7 65.4 67.9
SWE-Pro 60.6 57.3 59.0
SWE-Multilingual 78.3 77.5 76.2
SciCode 53.5 51.9 --
GPQA Diamond 92.4 91.3 90.1
HLE 41.4 40.0 37.7
HMMT 2026 Feb 97.1 96.2 95.2
IMOAnswerBench 90.0 86.0 89.8
Apex 44.5 34.5 38.3
MCP-Mark 60.8 56.7 57.1
Kernel Bench L3 1.98x / 96% 2.63x / 98% 1.07x / 54%
QwenWorldBench 57.3 56.1 52.3

编码 Agent 方面,Terminal Bench 2.0-Terminus 上 69.7 分,超过 DeepSeek V4 Pro Max 的 67.9。SWE-Verified 上 80.4,与 Opus 4.6 Max 的 80.8 几乎持平。SWE-Pro 上 60.6,目前最高。SciCode 上 53.5,同样领先。

通用 Agent 方面,MCP-Mark 上 60.8(GLM 5.1 是 57.5),MCP-Atlas 上 76.4(超过 Opus 4.6 的 75.8),Skillsbench 上 59.2(超过 K2.6 的 56.2)。办公自动化 SpreadSheetBench-v1 上 87 分,处于顶级水平。

推理能力上,GPQA Diamond 92.4 分超过 Opus 4.6 的 91.3。HLE 41.4 分,HMMT 2026 Feb 97.1 分,IMOAnswerBench 90 分,Apex 44.5 分,全部领先。

35 小时自主运行,10 倍 GPU 内核加速

这可能是整篇博客最惊人的案例。

团队让 Qwen3.7-Max 在一台从未见过的硬件平台(T-Head ZW-M890 PPU)上自主优化 Extend Attention Kernel。模型没有硬件文档、没有先验数据、没有参考内核,只有一个任务描述和一段 SGLang 的 Triton 实现代码。

在约 35 小时的连续自主运行中,模型完成了 432 次内核评估1158 次工具调用,独立完成了编写、编译、性能分析、bug 修复、架构重构等全部步骤。

最终结果:相比 Triton 参考实现,几何平均加速 10 倍。而且模型在运行 30 小时后仍然在持续发现新的优化空间,没有出现上下文退化或指令漂移。

对比一下其他模型在同一任务上的表现:

  • Qwen3.7-Max:10.0x
  • GLM 5.1:7.3x
  • Kimi K2.6:5.0x
  • DeepSeek V4 Pro:3.3x
  • Qwen3.6-Plus:1.1x

RL 监控:80 小时,10000 次调用,1618 次奖励劫持检测

团队还把 Qwen3.7-Max 用于 RL 训练的奖励劫持监控。在超过 80 小时的实验中,模型自主检索和回放训练轨迹,执行了超过 10000 次调用,系统性地识别了候选劫持模式(比如试图通过 GitHub 绕过约束获取标准答案),同时进行了规则验证、反例挖掘和迭代优化。

最终,Qwen3.7-Max 完成了多轮规则自演化,新增了 13 条启发式规则,准确标记了 1618 个劫持案例。

创业模拟:208 万美元收入,是上一代的 2 倍

在 YC-Bench(模拟创业公司一整年生命周期的基准测试)中,Qwen3.7-Max 实现了 208 万美元总收入,是 Qwen3.6-Plus(105 万美元)的 2 倍,是 Qwen3.5-Plus(35.2 万美元)的 5.9 倍,完成 237 个任务。

模型在运行过程中主动探索潜在客户、识别并拉黑恶意陷阱、优先选择可靠收入来源,还在中期危机中自主恢复,最终进入稳定高效的执行循环。

环境规模化的可扩展性

Qwen3.7 延续了 Qwen3.5 引入的环境规模化(environment scaling)方法,持续扩展 Agent 训练环境的质量和多样性。团队发现,Agent 能力会从多样化的训练环境中泛化——就像语言模型从多样化预训练文本中泛化一样。

Qwen3.7-Max 在所有评测中面对的都是全新的、从未见过的跨域环境,平均排名达到前 3,接近 Claude 4.6 Opus Max。

跨框架泛化

Qwen3.7-Max 的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件:任务(Task)、框架(Harness)和验证器(Verifier),可以自由组合。这使得:

  • 同一个任务可以与不同的框架和验证器配对,以极低的边际成本进行组合式扩展
  • 模型在不同框架配置下遇到相同的任务,被迫学习可泛化的问题解决策略,而不是针对特定框架的捷径

在 QwenClawBench 和 CoWorkBench 上,无论评估时使用什么框架,Qwen3.7-Max 都表现出稳定一致的性能。

实际应用案例

前端代码生成

Qwen3.7-Max 可以从单个提示词生成丰富的交互式 Web 应用,包括 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。一个示例是用摄像头检测手掌张合来控制 3D 粒子系统的收缩与扩散,粒子还能在手势指令下组成文字。

办公助手

模型可以读取大学论文格式规范,然后自动修复格式混乱的草稿——修正页面布局、标题样式、字体、页边距、目录和参考文献格式,全部通过自主的办公 CLI 工具调用完成。

机器人导航

Qwen3.7-Max 还能通过工具调用操作机器狗,进行物理世界的理解、规划、记忆和决策。这得益于机器人 Agent 框架 Qwen-RobotClaw、导航基础模型 Qwen-RobotNav,以及多个基于 Qwen-plus 构建的视觉工具。

模型接入

Qwen3.7-Max 即将通过阿里云百炼平台(Model Studio)提供 API 调用,支持 OpenAI 兼容的 Chat Completions 和 Responses API,以及 Anthropic 兼容的 API 接口。

同时支持 preserve_thinking 特性:保留所有前面轮次的思考内容,推荐用于 Agent 任务。

可以直接在 Claude Code、OpenClaw、Qwen Code 等 Agent 框架中使用:

# Claude Code 配置
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude
    

总结

Qwen3.7-Max 是目前阿里通义千问系列中最强、最全面的 Agent 驱动模型。在编码、办公自动化、长程自主任务中,它结合了前沿级别的推理能力、跨 Agent 框架的稳定泛化能力,以及在超长时间跨度内持续高效执行的能力。

一句话总结:35 小时、1158 次工具调用、10 倍加速——这就是 Qwen3.7-Max 的自主 Agent 能力。