很多人现在用 AI 的方式,其实还是在用聊天框。
打开一个页面,输入问题,等模型回答。它可以写文案、改代码、总结资料,也能帮你想方案。但从 AI Agent 的角度看,这只是最表层的用法。真正的变化不在于模型会不会聊天,而在于它能不能围绕一个目标持续工作:理解任务,拆解步骤,调用工具,检查结果,再决定下一步。
Brij Pandey 在 X 上发的「AI Agent Stack — Master Tree」很适合用来理解这件事。它把 AI Agent 拆成九层:基础层、Agent 大脑、工具层、工作流、多 Agent 系统、基础设施、可观测性、安全层,以及 Agent 的未来形态。

这个框架最有意思的地方是,它没有把 Agent 说成某一个模型,或者某一个 App。它更像是在说:AI Agent 是一套系统。
AI Agent Stack — Master Tree
AI Agents │ ├── 01. Foundation Layer │ ├── LLMs │ │ ├── GPT-4.1 │ │ ├── Claude │ │ ├── Gemini │ │ └── DeepSeek │ │ │ ├── Prompting │ │ ├── System Prompts │ │ ├── Few-shot │ │ ├── Chain of Thought │ │ └── Structured Output │ │ │ └── Context │ ├── Memory │ ├── RAG │ ├── Vector DB │ └── Knowledge Graphs │ ├── 02. Agent Brain │ ├── Planning │ │ ├── Task Breakdown │ │ ├── Goal Routing │ │ └── Reflection │ │ │ ├── Reasoning │ │ ├── ReAct │ │ ├── Tree of Thoughts │ │ ├── Multi-Agent Debate │ │ └── Self-Correction │ │ │ └── Decision Engine │ ├── Tool Selection │ ├── Memory Retrieval │ └── Action Prioritization │ ├── 03. Tool Layer │ ├── Web Search │ ├── Browser Automation │ ├── Code Execution │ ├── APIs │ ├── Database Access │ └── File Systems │ ├── 04. Agent Workflows │ ├── Research Agents │ ├── Coding Agents │ ├── Sales Agents │ ├── Customer Support Agents │ ├── Content Agents │ └── Autonomous Workflows │ ├── 05. Multi-Agent Systems │ ├── Manager Agent │ ├── Worker Agents │ ├── Reviewer Agents │ ├── Specialized Skills │ └── Shared Memory Bus │ ├── 06. Infrastructure │ ├── LangGraph │ ├── CrewAI │ ├── OpenAI Agents SDK │ ├── MCP │ ├── Docker │ └── Kubernetes │ ├── 07. Observability │ ├── Logs │ ├── Traces │ ├── Evaluations │ ├── Hallucination Checks │ └── Cost Monitoring │ ├── 08. Security Layer │ ├── Sandboxing │ ├── Permission Control │ ├── Secret Management │ ├── Guardrails │ └── Human Approval Loops │ └── 09. Future of Agents ├── Voice Agents ├── Computer Use ├── AI Employees ├── Self-Improving Agents └── Autonomous Companies
一、基础层:模型、提示词和上下文
Agent 的第一层还是大模型。GPT、Claude、Gemini、DeepSeek 这类模型提供了语言理解、生成和推理能力。没有这一层,后面的工具调用、多步任务、自动化流程都谈不上。
但模型本身还不等于 Agent。
一个可用的 Agent 还需要提示词和上下文。提示词决定模型按什么角色、规则和输出格式工作;上下文决定模型知道什么、记得什么、能参考什么。这里会用到 system prompt、few-shot 示例、结构化输出、记忆、RAG、向量数据库和知识图谱。
如果说模型是发动机,那提示词和上下文就是方向盘、仪表盘和地图。只给模型一个问题,它会回答;给它稳定的上下文和明确的输出约束,它才有机会进入工作状态。
二、Agent 大脑:计划、推理和决策
Agent 和普通聊天机器人的差别,很大一部分在这里。
聊天机器人通常是问一句答一句。Agent 需要先判断目标是什么,再把目标拆成任务。比如「帮我分析这个竞品网站」不是一个单步问题。它可能要打开网页、提取页面结构、看定价、找客户案例、总结定位,最后再写成报告。
这就需要计划能力:任务拆解、目标路由、反思。也需要推理方法,比如 ReAct、Tree of Thoughts、多 Agent 讨论、自我纠错。最后还要有决策引擎,决定什么时候查记忆,什么时候调用工具,哪个动作优先。
这层做不好,Agent 就会变成一个很忙但不靠谱的助手。它可能不停调用工具,却不知道自己为什么这么做。
三、工具层:Agent 接触真实世界的手
只会生成文字的 AI,能力边界很清楚。它知道很多东西,但它不能自己去看最新网页,不能运行代码,不能查数据库,也不能改文件。
工具层解决的就是这个问题。
一个 Agent 可以接入网页搜索、浏览器自动化、代码执行环境、API、数据库和文件系统。接入这些工具之后,它不再只是「回答我认为是什么」,而是可以去验证、执行和修改。
这也是 Claude Code、Codex、OpenClaw 这类编程 Agent 的核心。它们不只是告诉你应该怎么改代码,而是能读文件、编辑文件、跑测试,然后根据报错继续修。
四、Agent 工作流:从能力到具体场景
有了模型、大脑和工具,还需要把它们组合成具体工作流。
研究 Agent 会搜索资料、阅读网页、整理引用。编程 Agent 会理解代码库、修改文件、运行测试。销售 Agent 会整理线索、生成跟进邮件。客服 Agent 会读取知识库、判断用户问题、必要时创建工单。内容 Agent 会围绕主题生成文章、脚本或社媒内容。
这些都不是简单的「调用一次模型」。它们更像一条流水线,只是流水线里的部分判断由模型完成。
所以做 Agent 产品时,不能只问「用哪个模型」。更重要的问题是:任务从哪里开始?中间要经过哪些步骤?每一步的输入和输出是什么?失败了怎么处理?什么时候交给人确认?
五、多 Agent 系统:一个 Agent 不一定够用
复杂任务经常需要多个角色协作。
比如一个软件开发任务,可以有 manager agent 负责拆任务,worker agent 负责实现,reviewer agent 负责检查代码,另一个 agent 负责补测试。它们可能共享记忆,也可能各自拥有专门技能。
这听起来像公司分工,但实际落地时没那么浪漫。多 Agent 系统最大的问题不是「让更多 Agent 加进来」,而是协调成本。谁负责最终决策?多个 Agent 意见冲突怎么办?共享记忆会不会污染?一个 Agent 的错误会不会被另一个 Agent 放大?
多 Agent 有价值,但不是任务越多 Agent 越好。很多时候,一个设计清楚的单 Agent 工作流,比一群互相聊天的 Agent 更稳定。
六、基础设施:Agent 需要运行环境
当 Agent 从 demo 走向产品,基础设施就绕不开了。
LangGraph、CrewAI、OpenAI Agents SDK、MCP、Docker、Kubernetes 这些东西,解决的是 Agent 怎么编排、怎么接工具、怎么部署、怎么扩展的问题。
MCP 特别值得关注。它把模型和外部工具之间的连接做成更标准的协议,让 Agent 可以用相对统一的方式访问文件、数据库、浏览器、设计工具或企业系统。对开发者来说,这比每个工具都单独写一套适配要舒服得多。
不过基础设施也容易被过度使用。如果只是做一个简单的问答助手,上来就引入一整套 Agent 框架,可能反而增加复杂度。先把任务链路跑通,再决定要不要上框架,通常更稳。
七、可观测性:不知道 Agent 在干什么,就很难信任它
Agent 一旦开始调用工具、执行代码、读写文件,问题就来了:它刚才为什么这么做?哪一步出错了?花了多少钱?有没有幻觉?输出质量怎么评估?
这就是可观测性的价值。
日志、trace、评估、幻觉检查、成本监控,都是 Agent 产品必须认真处理的东西。否则系统看起来很智能,出问题时却没人知道原因。
对企业场景来说,这一点更关键。一个客服 Agent 给错答案,一个销售 Agent 发错邮件,一个编程 Agent 改坏代码,都需要能追溯。没有可观测性,Agent 很难从玩具变成可靠系统。
八、安全层:Agent 越能干,越需要边界
Agent 的能力越强,风险也越真实。
如果它能执行代码,就需要沙箱。如果它能访问数据库,就需要权限控制。如果它能调用外部 API,就要管理密钥。如果它能自动完成业务动作,就要有人类审批。
安全层包括 sandboxing、permission control、secret management、guardrails 和 human approval loops。它不是上线前补一个开关,而应该从设计阶段就放进去。
尤其是编程 Agent 和企业 Agent。让模型「自己决定下一步」听起来很酷,但涉及删除数据、修改生产环境、发送外部消息时,就不能只靠模型自觉。
九、Agent 的未来:从聊天入口变成工作入口
帖子最后提到几个方向:语音 Agent、Computer Use、AI Employees、自我改进 Agent、自治公司。这些词听起来有点大,但拆开看,其实都指向同一件事:AI 不再只是在聊天窗口里回答问题,而是开始进入真实的软件、流程和组织。
1. 语音 Agent:从打字提问到直接分配任务
语音 Agent 不是简单的语音转文字。真正有用的语音 Agent,要能理解上下文、确认意图、调用工具,还要能在任务过程中继续追问。
比如你对它说:「帮我看一下今天的销售数据,如果异常就发到群里。」普通语音助手可能只能打开一个报表。语音 Agent 则应该知道去哪里取数、怎么判断异常、要不要生成解释,以及发给谁。
这类 Agent 最先落地的地方,可能是开车、会议、客服、销售外勤和个人助理。因为这些场景里,人不方便一直打字。语音是入口,背后真正重要的还是任务执行能力。
2. Computer Use:让 Agent 直接操作软件界面
Computer Use 指的是让 Agent 像人一样看屏幕、点按钮、填表单、切换窗口。它不再只调用 API,而是直接操作已有软件。
这很关键。现实世界里有大量系统没有好用的 API,或者 API 权限很难申请。公司内部的后台、老旧 CRM、财务系统、网页表单,很多都只能通过界面操作。Computer Use 给 Agent 打开了一条路:人能在界面里做的事,Agent 也有机会学着做。
但它的问题也很明显。界面会变,按钮会移动,弹窗会出现,登录态会过期。让 Agent 操作界面,比调用稳定 API 更脆弱。所以短期内,它更适合低风险、可回滚、有人能检查结果的任务。
3. AI Employees:不是替代一个人,而是接管一类重复工作
AI Employees 经常被说得很夸张,好像公司马上就能雇一批 AI 员工。但更现实的理解是:某些重复性岗位里的部分工作,会被长期运行的 Agent 接过去。
例如销售运营里的线索整理、客服里的问题分流、财务里的票据初审、研发里的 issue 分类和测试补全。这些任务不一定需要 AI 独立做完全部流程,但可以先做初稿、预处理、提醒和检查。
真正的 AI Employee 不只是一个聊天机器人名字加头像。它需要权限、工作日志、绩效指标、失败处理机制,也要有人负责管理。否则它只是一个会说话的自动化脚本。
4. 自我改进 Agent:能复盘,但不能无限放飞
自我改进 Agent 指的是 Agent 能根据执行结果调整自己的策略。比如一次搜索效果不好,下次换关键词;代码测试失败后,分析报错再修改;客服回答被人工改写后,记住类似问题应该怎么答。
这听起来很自然,因为人也是这样学习的。但在系统里要小心。Agent 可以复盘,可以记录经验,可以优化提示词或工作流,却不应该随意改自己的核心规则和权限边界。
如果一个 Agent 既能行动,又能修改自己的行动规则,还能扩大权限,那风险会快速变大。更稳妥的做法是:让它提出改进建议,由人或评估系统审核后再生效。
5. 自治公司:更像远期想象,不是短期产品形态
自治公司是最激进的方向。它设想的是一组 Agent 可以完成市场分析、产品开发、营销、销售、客服、财务等公司职能,甚至自动做决策。
这在概念上很吸引人,但离真正可控的商业系统还有距离。公司不是一堆任务的集合。它还涉及责任、法律、品牌、客户信任、财务风险和组织判断。Agent 可以自动化很多流程,但让它完全自治,短期内并不现实。
更可能先出现的是「半自治团队」:人设定目标和边界,Agent 负责执行大量中间步骤,人再检查关键结果。比如一个内容团队用 Agent 做选题、资料搜集、初稿和分发;一个开发团队用 Agent 修小 bug、补测试、做代码审查;一个运营团队用 Agent 监控数据、生成日报和提醒异常。
所以,未来不是突然出现一家完全由 AI 经营的公司。更可能是每家公司内部,先出现一批跑在后台的 Agent 工作流。
但我觉得更现实的变化是:AI 会从聊天入口,慢慢变成工作入口。
今天你可能还在问 AI:「帮我写一段代码。」下一步会变成:「帮我把这个 issue 修掉,测试通过后告诉我。」再往后,可能是:「每天早上检查这些数据,异常时生成分析并通知我。」
这就解释了那句话:大多数人现在把 AI 当聊天机器人用,下一代人会把 AI 当操作系统用。
总结
AI Agent Stack Master Tree 的价值,不在于列了一堆热门名词,而在于它提醒我们:Agent 不是单点能力,而是分层系统。
底层是模型和上下文,中间是计划、推理、工具调用和工作流,上层是多 Agent 协作、基础设施、监控和安全。少了哪一层,Agent 都可能停留在演示阶段。
所以,判断一个 Agent 产品靠不靠谱,不要只看它用了哪个模型。更应该看它有没有清楚的任务链路、可控的工具权限、可追踪的执行过程,以及必要时让人介入的机制。
聊天框只是入口。真正的 Agent,要能把事情做完。