2026年6月30日,Anthropic 正式推出 Claude Sonnet 5。官方的措辞是"迄今最具 Agent 能力的 Sonnet",发布会氛围一片积极向上。但如果你稍微往背后看一眼,就会发现这次发布的语境,远比 Changelog 里写的要复杂一些。
发布的时机:说是巧合,有点难信
先把背景交代清楚。Anthropic 目前最强的两款模型——Mythos 5 和 Fable 5——正因网络安全方面的顾虑被美国政府限制发布,至今无法公开上线。旗舰产品被卡在门口,这对任何一家 AI 公司来说都不是小事。与此同时,市场上的低价大模型竞争愈演愈烈,DeepSeek 们把"便宜好用"这件事越卷越极端,开发者的迁移成本越来越低,忠诚度越来越难维持。
在这个时间节点推出 Sonnet 5,说和上述两件事完全没关系,确实说不过去。
不过有一点需要说清楚:"被逼出来"和"本来就要做"并不矛盾。 Sonnet 系列从 3.5 到 3.6、3.7,一直在沿着 Agent 方向稳定演进,Sonnet 5 是这条路线的自然延续。外部压力影响的是时机,不是方向。更准确的描述或许是:这是一个本来就在规划中的产品动作,在一个"特别需要它出现"的节点被加速推上了台。 借势而为,未必不是聪明的选择。
那它到底做到了什么
抛开背景,产品本身的成色还是值得认真看的。
Sonnet 5 这次最核心的变化,是在 Agent 能力上真正缩短了和 Opus 4.8 的距离。Anthropic 用了一个很直白的说法:几个月前需要更大、更贵模型才能完成的自主任务,现在 Sonnet 级别的价格就能跑通。
基准测试:全面碾压前代,多项追平旗舰
数据层面,Sonnet 5 在每一个测评维度上都超过了 Sonnet 4.6,部分指标已经和 Opus 4.8 几乎持平甚至超越:
| 评测项目 | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro(Agent 编码) | 58.1% | 63.2% | 69.2% |
| Terminal-Bench 2.1(终端操作) | 67.0% | 80.4% | — |
| Humanity's Last Exam(多学科推理,含工具) | 46.8% | 57.4% | 57.9% |
| OSWorld-Verified(计算机操作) | 78.5% | 81.2% | — |
| GDPval-AA v2(知识工作) | — | 1,618 | 1,615 |
其中最亮眼的两个数字:多学科推理 Humanity's Last Exam 上 Sonnet 5 以 57.4% 几乎追平 Opus 4.8 的 57.9%;知识工作基准 GDPval-AA v2 上,Sonnet 5 以 1,618 分直接超过了 Opus 4.8 的 1,615 分。一个 Sonnet 级别的模型在某些维度上打赢了旗舰,这个结果本身就说明了问题。

Agent 能力:从"会停下"到"会跑完"
比数字更有说服力的,是早期合作伙伴描述的使用感受。以前 Sonnet 系列在复杂多步骤任务里容易"卡壳"——走到一半不知道怎么继续,或者干脆停下来等人指令。Sonnet 5 的变化被反复提到的关键词是:跑完了。
一个典型案例:让它排查一个 Bug,它自行写了复现测试、实现了修复,还主动把修复藏起来验证 Bug 是否真的重现——整个过程没有人工介入,一次完成。这正是 AI Agent 落地最难跨过的那道坎:不只是"能做",而是"做到底"。
价格:便宜,但要算清楚
Sonnet 5 上线优惠期(截至 2026 年 8 月 31 日)定价为输入 $2/百万 token、输出 $10/百万 token,此后切换为 $3/$15 的正式价格。对比 Opus 4.8 的 $5/$25,差距相当明显。
不过这里有一个坑值得提前注意:Sonnet 5 更强的 Agent 自主性,意味着它完成同一个任务会消耗更多 token。 每个 token 更便宜,但跑一次任务用的更多,实际账单未必比 Sonnet 4.6 少。规模化部署前最好先跑一轮实测,别被单价迷惑了。
竞争的本质:用中端价格收割高端能力
回到更大的格局来看,Sonnet 5 这次回应的核心竞争命题其实很清楚:面对低价模型的冲击,Anthropic 的答案不是降价,而是在同一个价格带里塞进更强的能力。
以前 Sonnet 和 Opus 是两段分离的性能曲线,中间有明显的能力断层。现在 Sonnet 5 和 Opus 4.8 的曲线连成了一段连续的范围——开发者可以在价格和精度之间做连续调节,而不是面对一个非此即彼的二选一。这对整个 AI 应用生态的意义在于:Agent 功能从"贵到只有大厂玩得起",又往"更多团队都能上线"的方向迈了一步。
至于 Mythos 5 什么时候能解禁,旗舰产品线什么时候能重回战场——那是 Anthropic 更大的烦恼。但在那之前,Sonnet 5 已经足够让它在 2026 年下半年的竞争里站稳脚跟了。