Anthropic 在 2026 年 5 月 28 日凌晨发了 Claude Opus 4.8。距离 Opus 4.7 的发布只隔了 41 天。大模型行业通常是半年一更,这个节奏有点快。
只看官方的 benchmark 对比图,这像是次平淡的升级:SWE-Bench Pro 从 64.3 涨到 69.2,OSWorld 从 82.8 涨到 83.4。但翻完官方博客、Dynamic Workflows 专页和社区讨论后发现,这次的重点不在那几个百分点。

一、先还 4.7 的债
Opus 4.7 发布后的反响并不理想。Reddit 上一条"Opus 4.7 is not an upgrade but a serious regression"的帖子拿到 2300 多个赞,X 上"4.7 没比 4.6 进步"的评论获得 1.4 万赞。很多老用户被 4.7 的"adaptive reasoning"气到直接退回 4.6——那个自动判断要不要深度思考的功能,在实际使用中经常做出错误决策。
4.8 基本就是在还这笔债。
手动 effort 控制加回来了。4.8 默认 effort 拉到 high,同时把控制权还给用户。现在 claude.ai 的模型选择器旁边多了一个滑动条,可以自由选择 low、high、extra(Claude Code 中为 xhigh)和 max。Anthropic 自己建议:困难任务和长时间异步工作流用 extra。
写代码不再那么"瞎自信"了。这是 Opus 4.8 最被社区认可的变化。官方称之为"降 4 倍幻觉"——4.8 比 4.7 少 4 倍在代码中留下 bug 却不指出的情况。它会主动标记自己输出中的不确定之处,不再自信满满地交出实际上没完成的工作。
"它会在自己的输出薄弱时主动标注,而不是自信满满地告诉你'搞定了'。更少的'完成了!'时刻——而实际上并没有完成。"
社区有人吐槽把这个包装成"honesty"提升是过度拟人化,但开发者拿到的是实打实的好处:更少的返工,更少的隐性 bug。
价格不变。输入 $5/百万 token,输出 $25/百万 token。老用户不需要营销话术,给稳定的迭代和不涨价就够了。
二、41 天发版背后的节奏狙击
41 天就赶一版同价升级,Anthropic 之前没有过这个节奏。仔细看,这不只是产品迭代——这是一个有意切出来的中间态产品。
Opus 4.7 和 4.8 的 training data cutoff 都是 2026 年 1 月,完全一样。这意味着 41 天里 base model 大概率没有重做大规模预训练,迭代的是 post-training(RLHF、safety 训练、tool-use 微调等)。对比国内厂商快速迭代更多卡在"卡和数据"上,Anthropic 这种"base model 复用 + post-training 快速迭代"的打法才能做到频繁切片发版。
时机上,4.8 刚好赶在 GPT-5.6 传言发布前。Anthropic 手上压着比公开模型水平高一截的 Mythos,理论上可以在 4.6 到 Mythos 之间随便切片发布。每次需要狙击竞争对手就放一版,这种打法之前在芯片厂商那边见过,但在大模型领域是新的。
三、Dynamic Workflows:这才是真新闻
跟着 Opus 4.8 一起发布的 Dynamic Workflows,反而是这次最值得看的东西。
它做的事很直接:你给 Claude Code 一句大任务描述,它自己拆解,一次性派出几十到几百个并行 subagent 去干活。干完后让另一批 agent 去验证,甚至专门派 agent 去挑刺,反复迭代到结果收敛,最后给你一个整合好的答案。整个过程能跑几小时甚至几天,中途断了还能接着跑。
案例:Bun 的 Rust 重写
Bun 是一个运行极快的 JavaScript 运行时。创始人 Jarred Sumner 用 Claude Code 的 Dynamic Workflows 把整个项目从 Zig 移植到 Rust——11 天产出约 75 万行 Rust 代码,通过 99.8% 的原有测试,从第一次提交到合并只花了 11 天。
HN 上的争议也很直接:产生了 13000 多个 unsafe block,主流声音认为"这不算可以直接上 production 的代码"。但即使把它当成"一个需要 review 的草稿 PR",一个 AI 在 11 天内产出能编译能跑测试的 75 万行 Rust——已经不在原来的量级里了。
适合的场景包括:整个代码仓库的 bug 排查、安全审计、性能优化,以及最常见的大规模迁移——框架升级、API 替换、跨语言移植,一次涉及上千个文件那种。
代价是它很烧 token。Anthropic 罕见地主动警告:Dynamic Workflows 消耗的 token 比普通 Claude Code 会话多得多,建议先拿小任务试水。目前 Max、Team 套餐和 API 用户默认开启,Enterprise 套餐默认关闭,需要管理员手动打开。
这让人联想到 Karpathy 几周前刚加入 Anthropic 当 MTS 时说的判断:未来超级个体的形态,是一个人指挥一群 AI。Dynamic Workflows 就是把这种杠杆做成了产品——一个人,一台电脑,跑几百个并行 subagent。
四、Fast Mode:给重度用户的留人成本
Fast Mode 这次降价,大部分中文报道都讲错了。
官方原文是"fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models"。"3 倍便宜"是相对自家上一代的 Fast Mode,不是相对标准模式。具体来说:
| 模式 | 输入价格 | 输出价格 | 速度 |
|---|---|---|---|
| 标准模式 | $5/百万 token | $25/百万 token | 基准 |
| Fast Mode | $10/百万 token | $50/百万 token | 约 2.5 倍快 |
Fast Mode 仍然比标准模式贵 2 倍。它不是给个人开发者准备的——它的客户是 API 接入的大企业,整个工程师团队几十个人每天上千次 API 调用。最近甚至有企业要求员工停止使用 Claude Code,因为公司报销的 API 账单肉疼。Anthropic 主动砍 Fast Mode 3 倍,目的非常清楚:留住大企业客户。
对个人开发者来说,订阅档依然是最划算的方式。在 Claude Code 里用 /fast 即可开启。
五、Terminal-Bench:那个故意没补的坑
Opus 4.8 在 agentic 维度几乎全面领先,但有一个例外。
Terminal-Bench 2.1 这一项,GPT-5.5 是 78.2%,Opus 4.8 是 74.6%,差了 3.6 个百分点。Anthropic 自己在官方博客脚注里默认了这件事——他们用的是 Terminus-2 公开 harness,同时承认 GPT-5.5 在自家 Codex CLI harness 下能跑到 83.4%。
为什么 41 天的补丁包没去补这个坑?真相可能在中间:
- GPT-5.5 的优势:纯终端、ops、CLI 工作流,给 ChatGPT 在 Codex 里跑命令用
- Opus 4.8 的优势:理解既有代码库、多文件改动、长链路 agent execution,给 Cursor、Claude Code 这种 IDE-style 的 agent 用
Anthropic 用资源分配清楚地表态了:"我擅长的方向赢得彻底"比"每个 benchmark 都打"更聪明。
六、社区实测:前后端能力的分化
中文社区跑下来,有一些官方 benchmark 之外的感受:
- 前端能力略微加强:落地页细节方面优化了不少,但不加提示词限制直出前端仍然具有较强的"蓝紫色渐变 AI 味"
- 后端能力大大加强:修 bug 返工次数较少,初步测试强于 GPT-5.5
- "不说人话"问题改善:4.7 被吐槽的过度解释问题有所改善,但仍一定程度上存在引用变量名的习惯
- token 消耗体感更快:虽然官方说价格与 4.7 一致,但实际使用中感觉消耗比 4.6 更快
Reddit 社区的反应则更加两极分化。有用户抱怨 effort 控制是"安慰剂",花了 40 万 token 的内部"adaptive thinking"最后产出了不存在的库;也有用户表示 4.8 正在连续数小时清理 4.7 留下的垃圾代码,且效果经过了实时测试验证。
"如果你知道自己在做什么,任何模型都足够好。如果你想要对着电脑咕哝几声就让它读懂你的心,那还需要几年。"
有位 Reddit 用户说得直白:"Anthropic 是好的,hype 是坏的。Claude 没问题,Codex 没问题,DeepSeek 没问题,Mistral 没问题。我们正在到达一个'其实无所谓'的节点。"
七、作为用户怎么用?
几条建议:
- 在用 4.7 的:今天就切到 4.8。同价格、写代码更靠谱了、默认 effort high、手动控制权也回来了。免费升级,没理由不升。
- 如果你怀念 4.6:Opus 4.6 已从模型选择器下拉菜单中移除,但社区反馈仍可通过
/model claude-opus-4-6调用。 - Fast Mode 不用纠结:订阅档够用。它本来就不是给个人开发者准备的。
- 最值得尝试的是 Dynamic Workflows:下次遇到大规模迁移或仓库级任务时,直接说"create a workflow",然后去吃个饭。
总结
Opus 4.8 算不上翻天覆地的升级,但方向对了。base model 到位之后,post-training 快速迭代就是 Anthropic 的节奏。41 天一版,价格不变,写代码更靠谱——对老用户来说这就够了。