Qwen3.7-Max 发布：Agent 时代的全面领先_AI资讯

2026年5月20日，阿里通义千问团队正式发布 Qwen3.7-Max，号称目前最全面的 Agent 时代大模型。这不是一个挤牙膏的升级，而是在编码、办公自动化、长程自主推理等多个维度全面超越现有旗舰模型的跳跃式发布。

核心能力一览

Qwen3.7-Max 定位为一个通用的 Agent 基础模型，覆盖以下场景：

编码 Agent：从前端原型到复杂多文件软件工程
办公与生产力：通过 MCP 集成和多 Agent 编排，自动化办公流程
长程自主执行：连续运行数小时甚至数十小时，完成上千次工具调用
跨框架泛化：在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架下表现一致

基准测试：全面领跑

在多个关键基准上，Qwen3.7-Max 的表现超越了现有的旗舰模型：

在多个关键基准上，Qwen3.7-Max 的表现超越了现有的旗舰模型

基准	Qwen3.7-Max	Opus 4.6 Max	DS-V4-Pro Max
Terminal Bench 2.0-Terminus	69.7	65.4	67.9
SWE-Pro	60.6	57.3	59.0
SWE-Multilingual	78.3	77.5	76.2
SciCode	53.5	51.9	--
GPQA Diamond	92.4	91.3	90.1
HLE	41.4	40.0	37.7
HMMT 2026 Feb	97.1	96.2	95.2
IMOAnswerBench	90.0	86.0	89.8
Apex	44.5	34.5	38.3
MCP-Mark	60.8	56.7	57.1
Kernel Bench L3	1.98x / 96%	2.63x / 98%	1.07x / 54%
QwenWorldBench	57.3	56.1	52.3

编码 Agent 方面，Terminal Bench 2.0-Terminus 上 69.7 分，超过 DeepSeek V4 Pro Max 的 67.9。SWE-Verified 上 80.4，与 Opus 4.6 Max 的 80.8 几乎持平。SWE-Pro 上 60.6，目前最高。SciCode 上 53.5，同样领先。

通用 Agent 方面，MCP-Mark 上 60.8（GLM 5.1 是 57.5），MCP-Atlas 上 76.4（超过 Opus 4.6 的 75.8），Skillsbench 上 59.2（超过 K2.6 的 56.2）。办公自动化 SpreadSheetBench-v1 上 87 分，处于顶级水平。

推理能力上，GPQA Diamond 92.4 分超过 Opus 4.6 的 91.3。HLE 41.4 分，HMMT 2026 Feb 97.1 分，IMOAnswerBench 90 分，Apex 44.5 分，全部领先。

35 小时自主运行，10 倍 GPU 内核加速

这可能是整篇博客最惊人的案例。

团队让 Qwen3.7-Max 在一台从未见过的硬件平台（T-Head ZW-M890 PPU）上自主优化 Extend Attention Kernel。模型没有硬件文档、没有先验数据、没有参考内核，只有一个任务描述和一段 SGLang 的 Triton 实现代码。

在约 35 小时的连续自主运行中，模型完成了 432 次内核评估、1158 次工具调用，独立完成了编写、编译、性能分析、bug 修复、架构重构等全部步骤。

最终结果：相比 Triton 参考实现，几何平均加速 10 倍。而且模型在运行 30 小时后仍然在持续发现新的优化空间，没有出现上下文退化或指令漂移。

对比一下其他模型在同一任务上的表现：

Qwen3.7-Max：10.0x
GLM 5.1：7.3x
Kimi K2.6：5.0x
DeepSeek V4 Pro：3.3x
Qwen3.6-Plus：1.1x

RL 监控：80 小时，10000 次调用，1618 次奖励劫持检测

团队还把 Qwen3.7-Max 用于 RL 训练的奖励劫持监控。在超过 80 小时的实验中，模型自主检索和回放训练轨迹，执行了超过 10000 次调用，系统性地识别了候选劫持模式（比如试图通过 GitHub 绕过约束获取标准答案），同时进行了规则验证、反例挖掘和迭代优化。

最终，Qwen3.7-Max 完成了多轮规则自演化，新增了 13 条启发式规则，准确标记了 1618 个劫持案例。

创业模拟：208 万美元收入，是上一代的 2 倍

在 YC-Bench（模拟创业公司一整年生命周期的基准测试）中，Qwen3.7-Max 实现了 208 万美元总收入，是 Qwen3.6-Plus（105 万美元）的 2 倍，是 Qwen3.5-Plus（35.2 万美元）的 5.9 倍，完成 237 个任务。

模型在运行过程中主动探索潜在客户、识别并拉黑恶意陷阱、优先选择可靠收入来源，还在中期危机中自主恢复，最终进入稳定高效的执行循环。

环境规模化的可扩展性

Qwen3.7 延续了 Qwen3.5 引入的环境规模化（environment scaling）方法，持续扩展 Agent 训练环境的质量和多样性。团队发现，Agent 能力会从多样化的训练环境中泛化——就像语言模型从多样化预训练文本中泛化一样。

Qwen3.7-Max 在所有评测中面对的都是全新的、从未见过的跨域环境，平均排名达到前 3，接近 Claude 4.6 Opus Max。

跨框架泛化

Qwen3.7-Max 的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件：任务（Task）、框架（Harness）和验证器（Verifier），可以自由组合。这使得：

同一个任务可以与不同的框架和验证器配对，以极低的边际成本进行组合式扩展
模型在不同框架配置下遇到相同的任务，被迫学习可泛化的问题解决策略，而不是针对特定框架的捷径

在 QwenClawBench 和 CoWorkBench 上，无论评估时使用什么框架，Qwen3.7-Max 都表现出稳定一致的性能。

实际应用案例

前端代码生成

Qwen3.7-Max 可以从单个提示词生成丰富的交互式 Web 应用，包括 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。一个示例是用摄像头检测手掌张合来控制 3D 粒子系统的收缩与扩散，粒子还能在手势指令下组成文字。

办公助手

模型可以读取大学论文格式规范，然后自动修复格式混乱的草稿——修正页面布局、标题样式、字体、页边距、目录和参考文献格式，全部通过自主的办公 CLI 工具调用完成。

机器人导航

Qwen3.7-Max 还能通过工具调用操作机器狗，进行物理世界的理解、规划、记忆和决策。这得益于机器人 Agent 框架 Qwen-RobotClaw、导航基础模型 Qwen-RobotNav，以及多个基于 Qwen-plus 构建的视觉工具。

模型接入

Qwen3.7-Max 即将通过阿里云百炼平台（Model Studio）提供 API 调用，支持 OpenAI 兼容的 Chat Completions 和 Responses API，以及 Anthropic 兼容的 API 接口。

同时支持 preserve_thinking 特性：保留所有前面轮次的思考内容，推荐用于 Agent 任务。

可以直接在 Claude Code、OpenClaw、Qwen Code 等 Agent 框架中使用：

# Claude Code 配置
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude

总结

Qwen3.7-Max 是目前阿里通义千问系列中最强、最全面的 Agent 驱动模型。在编码、办公自动化、长程自主任务中，它结合了前沿级别的推理能力、跨 Agent 框架的稳定泛化能力，以及在超长时间跨度内持续高效执行的能力。

一句话总结：35 小时、1158 次工具调用、10 倍加速——这就是 Qwen3.7-Max 的自主 Agent 能力。

Qwen3.7-Max 发布：Agent 时代的全面领先