GPT-5.4 Computer Use 实测：AI 替我打开浏览器，逐条填完了报销表单

2026-03-11 07:46:14来源：原文作者：Lex 陆徐洲

OSWorld 跑分 75%，人类测试者 72.4%。 3 月 5 日，OpenAI 发布 GPT-5.4，官方给出的最大卖点不是更聪明，而是——它能操作你的电脑了。看屏幕、点鼠标、打字、选下拉框。不是生成一段代码让你去

OSWorld 跑分 75%，人类测试者 72.4%。

3 月 5 日，OpenAI 发布 GPT-5.4，官方给出的最大卖点不是更聪明，而是——它能操作你的电脑了。

看屏幕、点鼠标、打字、选下拉框。不是生成一段代码让你去跑，是它自己动手。

我不太信。所以我决定自己试一下。

大家好，我是陆徐洲。

今天这篇文章，起因是后台一条让我印象很深的留言。

一位读者说，他被一个问题困扰了一两个月：每天从微信和办公 OA 收到 Excel 文件，然后要手动把里面的姓名、工号、金额一条一条录进内网的审批系统。

他试过 KeymouseGo，就是一个开源的按键精灵——录制鼠标键盘操作，然后原样回放。能用，但问题也很明显：系统弹个确认框、按钮挪个位置、数据格式变了，录好的脚本直接废掉。

他还问了一个更头疼的问题：外网收到的信息，怎么传到内网系统里自动操作？

说实话，这个问题我之前也没有好的答案。

但 GPT-5.4 发布之后，我觉得可以试试了。

先说清楚 GPT-5.4 到底更新了什么。版本号迭代很频繁，我只挑三个真正有价值的点。

第一，Computer Use。这是这次最值得说的能力。模型能看屏幕截图，理解界面上有什么，然后返回具体的操作指令——点击坐标 (354, 210)、输入\"张三\"、选择下拉选项。OSWorld 跑分 75%，超过了人类测试者的 72.4%。

有人可能会说，屏幕操作不是新东西。Selenium、Playwright 这些自动化测试框架早就能操作浏览器了，按键精灵更是十几年前就有的工具。

区别在哪？

Selenium 和 KeymouseGo 都是预编程的——你告诉它\"点击 id 为 submit 的按钮\"或者\"在坐标 (200, 300) 点一下\"，它照做。它不知道自己在操作什么，屏幕上画面变了它也不知道。

Computer Use 是模型原生能力。GPT-5.4 是真的在\"看\"截图、\"理解\"这是一个报销表单、\"判断\"下一步该点哪里。界面变了，它重新看、重新判断。

简单说——KeymouseGo 是录像机，Selenium 是写好的剧本，Computer Use 是一个有眼睛的实习生。

第二，Tool Search。当 agent 接入几十个工具时，以前每次调用都要把所有工具的定义全塞进去，token 爆炸。现在模型能按需检索工具定义，实测省了 47% 的 token。对开发者来说，直接影响账单。

第三，整体效率提升。同样的任务，GPT-5.4 比前代用更少的 token、跑更快的速度完成。这不是某个酷炫的新功能，但对真正要用 API 干活的人来说，可能是最实在的升级。

说回实测。

我不可能拿读者的真实内网系统来测试，所以我自己搭了一个模拟环境。

一个 HTML 页面，模拟了一个叫\"星河科技\"的公司 OA 报销录入系统——有侧边栏导航、有表单输入框、有部门和费用类型的下拉选择、有提交按钮、有已录入记录的表格。看起来就像一个真实的内部系统。

然后准备了一份 CSV 测试数据，5 条报销记录，包含姓名、工号、部门、金额、费用类型、日期和事由。

核心脚本的逻辑很简单：一个循环。

截屏发给 GPT-5.4 → 模型看截图，返回操作指令 → 脚本在浏览器里执行这个操作 → 再截屏 → 再发 → 循环，直到模型认为任务完成。

它会用 Playwright 打开浏览器，更关键的是——Playwright 在这里只是一个\"手\"，负责执行点击和打字。决定点哪里、打什么字的，是 GPT-5.4 在看截屏之后自己判断的。

运行之后，一个无头浏览器窗口弹出来，页面加载完毕。

然后它开始动了。

光标移向姓名输入框，点了一下，开始打字——\"张三\"。接着移向工号框，输入\"EMP001\"。到部门下拉框的时候，它点开下拉菜单，从选项里选中了\"技术部\"。

一条数据录完，它找到了蓝色的\"提交报销\"按钮，点击提交。页面弹出绿色提示\"提交成功\"，下方表格新增一行。

然后它开始填第二条。

整个过程有没有翻车？有的，操作不是很流畅。

[视频 1]

注：微信视频无法在 Markdown 中直接查看

请访问原文观看: https://mp.weixin.qq.com/s/heZCqGfXFNnHQQ8JnNOfTg

但总体来说，5 条数据录完，统计栏显示正确的条数和总金额。它确实做到了\"看屏幕理解界面，自主完成表单填写\"。

再看看单任务的模型消耗，GPT5.4还是有点贵的(这里是2元)。

回到那位读者的问题。

技术上，GPT-5.4 确实能完成\"看 Excel → 填系统\"这个操作。

但他的场景能直接用吗？

不能。三堵墙。

第一堵：内网进不去。GPT-5.4 是云端 API，必须联网调用。他的审批系统在内网，物理隔离。这不是配置问题，是架构问题。

第二堵：开源替代差距大。内网环境只能部署本地模型。目前最能打的开源 GUI 操作模型是字节跳动的 UI-TARS，72B 版本在 OSWorld 上跑到了 24.6%。作为参考，闭源模型这边 Claude Sonnet 4.6 已经到了 72.5%、GPT-5.4 是 75%——云端模型之间差距在缩小，但跟能本地部署的开源模型之间，还隔着三倍的鸿沟。

7B 版本可以在消费级显卡上跑，但成功率更低。简单说，无法无人值守。

第三堵：合规边界。这里要区分清楚——用 AI 去操作征信查询系统，自动发起查询，几乎一定违规。但如果是拿已经导出的征信报告 PDF 做内容解析和分析，那只是正常的数据处理工作，不涉及合规问题。

真正的红线在于：自动审批意味着责任认定不清——AI 点了\"通过\"，出了问题谁负责？

画一张简单的图帮你判断自己的场景：

外网 + 非敏感数据 → 现在就能用 GPT-5.4内网 + 非敏感数据 → 可以试 UI-TARS，但成功率有限已导出的数据做分析解析 → 正常使用，不涉及合规自动操作审批系统、征信查询系统 → 制度上不允许

那这个方向到底有没有意义？

我引几段最近看到的观点。

Andrej Karpathy 在 X 上说了一句很重的话：\"coding agents basically didn\"t work before December.\"——编程 agent 在去年 12 月之前基本不能用。言下之意，12 月之后，能用了。

Simon Willison 说，自从 Claude Opus 4.5 和 GPT-5.2 发布以来，他手写的代码已经降到了总产出的个位数百分比。

Addy Osmani 在博客里写道，软件工程师的角色正在从\"实现者\"变成\"编排者\"——你不再自己写代码，你指挥 agent 写。

这些判断指向同一个方向：软件正在为 AI agent 重新设计。

GPT-5.4 的 Computer Use 是这个趋势的一个注脚。当所有系统都有 API 的时候，agent 直接调 API 就行。但现实是，大量系统只有 GUI、没有 API——内部 OA、审批系统、老旧的业务平台。Computer Use 就是为这些场景准备的后备方案。

一年前，最好的开源 GUI 模型跑分不到 5%。

现在 UI-TARS 已经到了 24.6%，GPT-5.4 到了 75%。

这个差距不会一直存在。

对那位读者来说，今天的答案确实是\"还不行\"。

但这个\"还\"字，可能比大多数人想的要短得多。

而在外网、合规的场景里——这个\"有眼睛的实习生\"，今天就能上岗了。

我是陆徐洲，一家 LIMS 公司的 AI 算法负责人。

关注我，让我们一起在 AI 落地实践的路上，走得更远。

感谢您阅读我的文章。有任何关于AI提效或者工程落地实践方面的问题都可以加我微信，交个朋友，一起探讨，共同进步。

关键词：GPT-5.4 Computer Use AI 自动化

GPT-5.4 Computer Use 实测：AI 替我打开浏览器，逐条填完了报销表单

相关阅读: