AI Agent 智能体
能够感知环境、推理、制定计划、决策并自主行动的 AI 系统
简介
AI Agent(智能体)是 AI 技术的高级形态。与传统的大模型对话不同,智能体具备自主感知、推理规划、工具调用和决策执行的能力,能够完成复杂的多步骤任务。
核心能力
1. 环境感知
- 理解用户输入
- 观察执行结果
- 感知外部信息
- 状态跟踪
2. 推理规划
- 任务分解
- 步骤规划
- 逻辑推理
- 问题诊断
3. 决策执行
- 选择工具
- 调用工具
- 评估结果
- 迭代优化
4. 自主行动
- 无需人工干预
- 自动重试
- 错误恢复
- 目标导向
关键技术范式
ReAct 模式
Reason + Act,推理 + 行动循环范式
思考 → 行动 → 观察结果 → 重新思考 → 调整行动
先思考下一步做什么,然后采取行动,基于行动结果再进行推理,形成闭环。
工具调用方式
- Function Call:大模型原生的函数调用能力
- MCP:Model Context Protocol,标准化工具调用协议
不同素材中的观点
来自 2026-04-29-yupi-ai-guide-core-concepts:
- 能感知环境、推理、制定计划、决策、自主行动的 AI 系统
- 完成复杂任务,可调用工具
- 16 个核心概念之一
来自 2026-04-29-yupi-ai-guide-programming-tech:
- 是 AI 编程开发的四大核心业务领域之一
- 构建智能体的开发范式
- 打造能够依据推理自主采取行动的 AI 系统
- 开发涉及知识:任务规划、工具调用、交互 I/O、异常处理
来自 2026-05-11-skill-sop-for-ai:
- Agent 在编排视角象限图中占据右上角——AI 自己决定目标和步骤,全权决定,判断空间最大
- Skill 和 Agent 的关键区别:Skill 是”人定约束,AI 在约束内灵活执行”(中间位置),Agent 是”AI 全权决定”(完全自主)
- 从演进线看,Agent 是 Skill 的下一步——Prompt→知识库→Skill→Agent,每步传递的东西都在变深
- Agent 对应”给你一个员工”的分享形态,未来可能进一步演进为带 Principle(决策框架)的角色
来自 2026-05-13-ai-agent-productivity-20x:
- Agent 的关键跃迁不是”回答更聪明”,而是从问答模式切换到目标-结果模式:用户给出目标和完成标准后,Agent 会自主规划步骤、调用工具并交付结果
- 文章用作品集网站案例把 Agent 的运行机制拆成 observe→think→act 循环:先检查工作空间,再研究背景、制定计划、写代码、启动和截图验证,未达标则继续下一轮
- 这种循环说明 Agent 的价值不只在内容生成,而在多步骤任务闭环执行;但前提是人要给出清晰完成标准,否则 Agent 可能无限循环或偏航
- Claude Code、Codex、Manus 等被视为不同的 agent harnesses,长期可迁移的资产不只是框架本身,而是伴随 Agent 使用沉淀下来的上下文、记忆和技能文件
来自 2026-05-23-woshipm-enterprise-ai-implementation-methodology:
- 企业智能体不是第一步,是第三、第四甚至第五步——AI 在企业发挥作用的前提是先完成数据治理和流程改造。轧机轴承智能维护项目就是先把数据采集、标准化、历史运维情况、设备健康状态做好,再接入点检维修流程,最后才是智能体辅助判断,最终 ROI 10 倍以上。
- 三阶段成熟度模型:问答型(解决信息传递)→ 流程型(解决流程繁琐、人工失焦、数据孤岛)→ 运营型(跨工单/历史/反馈做模式识别,反哺规则与流程)。三阶段一旦想明白,结合企业现状排好节奏,很多项目就不会乱。
- 企业智能体不是聊天机器人,而是业务系统能力——如果理解成聊天机器人,关注重点就是模型能力、上下文窗口、提示词强度、人设和回答风格;如果理解成业务系统能力,就会开始关注数据源、接口、权限、口径、日志、流程节点、人工复核和指标验收。后者才是企业落地所需的基本要求。
- 企业智能体背后是一堆看不见的东西:经营查询 Agent 背后要有 SAP 接口+指标口径+权限控制+报表生成;财务审批智能体背后要有费用类型+审核规则+异常分流+人工复核;工单智能体背后要有统一入口+分类模型+分派规则+知识库+自愈流程+进度追踪。聊天框只是入口,后面这些才是项目能否活下来的关键。
- 典型反例:上来就问”能不能帮我做一个智能体”——但没说清楚要给它什么数据、遵守什么规则、嵌入哪个流程、出错谁来复核、效果怎么验收,最后做出来大概率只是个”胡乱聊天的对话框”。
- 这篇文章把 Agent 的视角从”个人生产力工具”扩展到”企业组织能力”,与 2026-05-13-ai-agent-productivity-20x 形成”个人 vs 组织”的双视角。
来自 2026-05-23-woshipm-sop-as-cot-agent-clone-expert:
- Agent 的定位升级:从”辅助工具”升级为系统的”流程守门员”——不做简单的问答机器人,而是构建具备工具调用能力的 Agent,并在系统层做”逻辑锁死”(只有 Agent 跑完 ReAct 循环且明确给出”建议上门”结论时下单按钮才会亮起)+ “自动拦截”(远程可修复时直接拦截下单请求)。这一招直接斩断了人为绕过规则的可能性。
- SOP 即思维链(SOP as CoT)方法论:CoT 的核心机制是任务分解和推理过程生成,而 SOP 天然就是一种结构化的思维链;把老专家 12 步排查逻辑映射到 ReAct 框架([观察]→[思考]→[行动]→[观察])就完成了”老专家经验→AI 可执行思维链”的编译。
- 隐性知识挖掘方法:搬把椅子坐在老专家身边,每查一步就问”这步是在看什么?逻辑是什么?如果不看会怎么样?“——客服文档里只有 4 步显性 SOP,老专家脑里其实跑了 12 步,其中 8 步是从未被完整写进文档的”隐性 8 步”(培训成本太高)。核心观点:在企业 AI 场景里,不懂业务,绝对做不出好的 AI 产品。
- ROI 验证:单”离线”场景工单拦截率维持在高位,预计每年节省数十万运维成本。诊断准确率高,一线客服对诊断结果的认可度达到预期。这是 Agent 在企业级 ROI 计算下的具体验证案例。
- 三档提效衡量标准:硬性提效(财务台账上显性变化,如砍掉无效上门费)/ 软性提效(业务量激增但人员零增长)/ 虚假提效(仅省时间但没转化成产出,像跑步机狂奔大汗淋漓但原地踏步)。组织推进 Agent 必须按这三档衡量,拒绝”为了做 AI 而做 AI”。
- 横向 + 纵向扩展路径:横向扩展是把同一套 Agent 复制到摄像头、温度探头、主机等更多设备类型;纵向扩展是”主动全车体检”——接单瞬间让 Agent 对该车辆所有设备发起一次诊断,把”被动维修”转变为”主动预防”。这条扩展路径展示了 Agent 在企业场景下的复利积累。
- 业务架构师角色:本文把”做 Agent 的人”上升为新的角色定位——具备深度业务洞察的”驻场局外人”,三层能力(业务抽象 + 数据 AI 素养 + 系统工程思维),详见 业务架构师。
来自 2026-05-27-woshipm-ai-ecommerce-kol-agent:
- 多租户隔离式 Agent 架构是规模化部署的工程基础:Elaine.H 给出的电商 KOL 蒸馏 AI 导购案例展示了 Agent 在”海量分身并行部署”场景下的核心架构——通过达人 ID 路由到专属 Skills 配置实例(加载偏好规则、风格 Prompt、专属测评库),实现”一个 Agent 框架支撑海量 KOL AI 分身独立运维、数据隔离”。这把 Agent 从”单用户单流程”扩展到”多租户多分身”的工业级形态
- Agent 层 vs Skills 层的严格职责分层:Agent 层是全局唯一调度中枢(意图判断、流程决策、多轮对话、任务编排、异常管控),具备自主决策与流程跳转能力(“大脑”);Skills 层是原子化执行单元(无自主决策能力,仅接收 Agent 下发的固定指令,完成单一闭环任务),输出标准化结果(“手脚”)。关键规则:技能之间无直接调用、所有工具统一标准化入参出参、调用结果必须可溯源/可审计/全程留痕。这种”大脑+手脚”严格分层与 2026-05-23-woshipm-sop-as-cot-agent-clone-expert 的”系统级强绑定”思路同源——通过架构层面切断”AI 自主性导致的不可控风险”
- Agent 9 步处理流程模板:用户选择 Agent → Agent 路由 → 意图提取(六大意图分类)→ 槽位补全(最多 3 轮)→ 上下文融合(5 轮滑动窗口 + 长期偏好标签)→ 任务拆解与编排(单达人串行 / 多达人并行)→ 技能执行(超时熔断+异常兜底)→ 回复生成(注入达人口吻 + AI 生成声明 + 评测溯源)→ 记录与反思(点赞/点踩归因 + BadCase 沉淀 + 长期记忆权重更新)。这是企业级对话 Agent 的通用 9 步模板,可复用到任何”主调度+多工具”的 AI 产品
- 业务系统能力视角的具体落地:本文是 2026-05-23-woshipm-enterprise-ai-implementation-methodology 中”企业智能体不是聊天机器人,而是业务系统能力”的具体范例——背后是 KOL ID 路由 + 测评 RAG 库 + CPS 商业分成 + 品类券信任机制 + 多模态结构化解析的完整业务体系,而不是聊天框
来自 2026-05-27-通过codex解析Agent工作流程:
- Agent 与 Skill 的本质区别被给出最通俗的比喻:Skill 是工具,Agent 是知道何时以及如何组合使用这些工具的”大脑”——直接调用 Skill 只能完成你知道且确定的事(固定流程,没有意外),Agent 能在不确定中自主规划,把多个 Skill 组合成解决方案。文中”管家”的比喻极为精准:你说”我下午见法国客户,帮我准备”,管家自主决定查日程、翻译材料、查茶文化,你给目标,管家自主拆解
- Agent 上岗前的”规矩”定义:系统提示词是骨子里的准则,角色设定是对外的人设,输出格式约束是回话模板,用版本管理记着改坏了能回滚——这套”规矩”对应的是 Prompt Engineering 在 Agent 产品中的工程化实践
- 单 Agent vs 多 Agent 的选型原则:简单一个人能做的任务用单 Agent,需要团队协作且特别复杂的任务用多 Agent——这是目前最实用的 Agent 架构决策框架
来自 2026-05-27-woshipm-enterprise-ai-agent-ontology:
- Agent 分为”本体论”和”灵活派”两条技术哲学路线,根本区别在于”谁来当规则的最终裁判”——与是否使用大模型无关。本体论路线(老会计)给 AI 发写死规则的《操作手册》,关键决策由手册把关;灵活派路线(管培生)给 AI 做”入职培训”告诉价值观和行为准则,让它自己判断执行。老会计 = 给 AI 穿防弹衣上战场(规矩在外面是硬杠杠),管培生 = 给 AI 讲安全须知就派出去(规矩在心里是软尺子)。
- 场景选型只需两个问题:规矩能说清楚吗?错了能承受吗?——规矩说得清且容错率为零 → 必须上本体论;规矩说不清且需要灵活应变 → 用灵活派。关键结论:不是”精确性行业”都得用本体论,而是”容错率为零的场景”没本体论就是在裸奔。
- “上松下紧”混合模式是大部分企业的终局——上面的”地面部分”(选品、营销、沟通)用管培生灵活应对,下面的”管道部分”(资金、结算、合规)用老会计死死守住。企业落地真正的手艺活在于能拆清楚哪部分该让老会计守、哪部分该让管培生冲。
- AI 放大了定义混乱的危险——没有”本体论意识”的大模型会以十倍信心给出错误结论(默认用”计算错误”解释所有对账差异,而实际差异是实体定义不一致)。规则引擎负责确定性校验,AI Agent 负责模糊推理——两者是协作关系不是替代关系。
来自 2026-05-18-ai-agent-week-into-day:
- 个人生产力革命:通过AI Agent系统可以实现10-20倍生产力提升,将一周工作压缩进一天,核心是从”问答模式”升级到”目标-结果模式”:用户给出目标,Agent自主规划、执行、交付结果,无需用户在中间环节介入
- 五大核心组件构成完整系统:
agents.md:Agent的”大脑”,包含角色定义、业务背景、个人偏好、工具使用规范等上下文信息,在每个任务开始前加载memory.md:持久化记忆系统,Agent会自动记录用户的偏好、修正意见和学习到的新知识,每次任务前读取- MCP协议:通用工具连接层,作为翻译器打通Agent与各类外部工具(邮件、日历、CRM、协作工具等)的连接
- 技能系统:将重复性流程标准化为可复用的技能(SOP),一次定义即可永久重复执行,避免每次都重新沟通
- 技能链接:多技能级联调用,配合定时任务调度,实现完全自主的工作流
- 渐进式构建方法论:从执行助理场景切入,先配置基础上下文和记忆,再连接核心工具,然后在实际使用中逐步将重复流程转化为技能,保持每周自动化3-5个小流程的节奏,长期积累产生复利效应
- 角色转变:用户从工具使用者转变为”数字团队管理者”,核心能力从操作执行转向目标定义、流程设计、结果校验,这套管理数字员工的方法论完全映射了人类组织的管理逻辑
- 资产可迁移性:所有上下文、记忆、技能都是纯markdown文件格式,不绑定特定框架,可以在不同Agent平台间迁移,避免了工具锁定风险
来自 2026-06-09-woshipm-to-a-era:
- Agent 从”工具”升级为”客户”——这是 Agent 商业定位的范式级跃迁:美团 CEO 王兴在 2026 年 Q1 财报电话会上提出 To A(To Agent)概念,将 Agent 不再定义为辅助用户的工具,而是互联网服务的新客户。如果 Agent 是客户,服务方要思考的是”怎么让 Agent 更愿意推我”,而不是”让用户更愿意打开我”。这意味着 Agent 不仅改变了技术栈,更在重构整个互联网的流量分发逻辑
- Agent 正在触发互联网十年商战壁垒的瓦解:同一周内,美团小美接入腾讯元宝、京东与腾讯合作对接华为/OPPO/荣耀、OpenAI 将 Booking/Spotify/Expedia 接进 ChatGPT。此前抖音被微信封锁、阿里腾讯互屏近十年——Agent 对流量分发的威胁是生死级的,连死对头都在结盟
- Agent 时代的用户路径根本性改变:当前是”想订外卖→打开美团”,Agent 时代是”帮我定明晚的日料”→Agent 意图理解→调用服务→完成下单,全程不打开任何 App。如果用户以后只跟 Agent 说话,传统 App 可能被彻底绕过
- 三大 Agent 战略路线正在形成:超级入口+服务方(腾讯元宝/ChatGPT 争用户需求第一站)、App 封装为可被 Agent 调用的服务(美团/京东/Uber 宁可退到后台能力层也不能被绕过)、系统级 Agent 入口(华为/OPPO 控制手机系统入口做分发)
来自 2026-05-31-ai-agent-attention-filtering:
- Agent 的新定位:“信息入口整理员”——不是替你做决策,而是先进入信箱、社群、RSS 这些”容易分心的入口”做第一轮过滤,把可能重要的东西挑出来附上理由,人再决定哪些真正要处理。核心原则是 AI 做筛选,人做判断,职责严格分离
- “外部劫持型分心”是 Agent 的真实应用场景——信息工作者的痛点不是缺工具,而是每次进入信箱/社群/RSS 都会被次要信息(促销邮件、推荐帖文、无关文章)消耗注意力;Agent 的价值在于让人”不进入”这些入口也能获取关键信息
- Agent 效果好坏取决于人给的上下文——不是叫 Agent 从整个信箱里判断轻重缓急,而是先告诉它当前工作重点(正在推进的课程、文章、合作、哪些对象优先),再让它筛;ChatGPT 的对话记忆足以承载这些上下文
- Codex for Chrome 被用于浏览器自动化做社群扫描——进入已登入的 X/Facebook,根据近期笔记主题扫描值得看的贴文,输出候选清单(主题+理由+原始链接),安全规则(不按讚、不留言、只列候选)必须事先写清
- 长期复利来自”写回规则”——每次筛选准不准都做修正:挑太多次要讯息就补排除规则,漏掉重要信件就补优先规则,让过滤机制随使用越来越精准
来自 2026-06-02-woshipm-agent-architecture-landing:
- Demo 展示的是智能,生产要求的是闭环——很多团队做过 Agent Demo,但一进入真实业务就暴露问题:同样”无法登录”背后可能是账号冻结、手机变更、设备风控、权限异常、灰度升级等十几种可能。Agent 不能只会回答问题,还要判断类型、读取上下文、调用系统、识别风险、必要时转人工、记录完整处理过程。这是 Agent 从 Demo 到生产的第一道分水岭。
- Agent 落地应该先问”它到底要完成什么业务任务”而不是先讨论模型/RAG/Function Calling——以客服工单为例,任务可分四类:知识查询类(适合 RAG)、状态判断类(需结合业务系统)、流程执行类(需配权限和确认机制)、多步协调类(需全部能力+人工分派)。任务定义不清则 Agent 变成”高级聊天入口”。
- 一个生产可用的 Agent 是五大能力的组合而非一个模型——知识检索(知识必须可信/最新/可追溯)、业务系统调用(查询 vs 执行风险等级不同)、任务规划(把目标拆成步骤)、上下文与记忆(需有边界)、人工确认(好架构不是去掉人而是让人只介入需要判断的环节)。
- 面向业务场景的 Agent 落地架构分为六层:场景定义→入口设计→编排→能力→治理→运营。详见 Agent 六层架构。六层需要业务、产品、技术、运营、安全和一线使用者共同参与。
- 运行治理是 Agent 长期运行的基石:权限控制(最小权限原则)、风险分级(查询自动/执行确认/敏感审批)、日志追踪(完整链路记录,没有日志就无法复盘)、效果评估(多维度指标区分真实价值和虚假繁荣)。详见 Agent 运行治理。
- 三段式实施路径:辅助→低风险工具→流程执行——第一阶段(MVP)做知识检索/工单总结/回复建议,不直接操作系统;第二阶段(稳定后)接入账号/订单/物流查询等低风险工具;第三阶段(成熟后)创建工单/分派/触发流程,但退款/封禁/合同变更必须人工确认。关键不是让 Agent 做更多事,而是让它在正确的边界内做事。
来自 2026-06-03-woshipm-office-agent-commercialization:
- 自主执行能力的信任悖论是 Agent 商业化的核心瓶颈:46% 用户反馈”需求理解偏差”、42% 反馈”产出质量不及预期”——这不是技术问题,而是信任问题。当智能体需要独立执行多步骤复杂任务时,用户需要”过程可控性”:实时感知任务推进状态、定位中间环节异常、必要时介入调整。执行过程透明度越高,用户越愿意让渡控制权。这意味着 Agent 产品设计的重心应从”让 Agent 做更多事”转向”让用户信任 Agent 做事”——与 2026-06-02-woshipm-agent-architecture-landing 的运行治理(日志追踪/风险分级/效果评估)形成”产品设计↔商业化”的呼应
- 从商业化角度看 Agent 演进路径:已付费用户(36%)的核心驱动力是”可量化的效率提升”(效率刚需驱动)和”更高级的模型推理/更丰富的插件”(能力拓展驱动)。这意味着 Agent 从”辅助工具”到”付费产品”的跨越不靠功能堆叠,而靠在具体场景中建立”不可替代性”——用户只为效果买单,不为可能用到的功能预付
来自 2026-06-03-youtube-multi-agent-accounting-pipeline:
- Sequential Pipeline(顺序管道)是规则驱动业务的最优 Agent 架构:会计/记账工作每一步都是”规则、结构、顺序”——先标准化、再分类、再核对、再汇总、最后解读。5 个 Agent 组成单一顺序管道(数据准备→分类→核对→报告→洞察),每个 Agent 恰好一个职责,输出直接成为下一个 Agent 的输入。这种架构的核心不是”AI 多聪明”,而是”每一步的边界足够清晰”——分类 Agent 不碰原始数据格式,核对 Agent 不改任何数据,报告 Agent 不做解读。职责隔离让系统可靠且可扩展
- 逐个构建、逐个测试的 Agent 工程纪律:不是做完 5 个 Agent 再跑端到端看效果,而是构建 Agent 1 → 测试 → 构建 Agent 2 → 测试 → 以此类推。这是增量式 Agent 系统建设的正确方式——每一步都是验证过的,管道串起来才能”just work”。与 2026-05-31-blocktempo-7-agents-software-factory 的 7 Agent 软件工厂(同样强调逐个测试)形成跨场景验证
- 会计自动化管道的 5 层输出:Agent 1 输出标准化 CSV(date/description/amount/type)→ Agent 2 输出 +category/subcategory → Agent 3 输出 Markdown 核对报告(匹配/差异/缺失/重复四节)→ Agent 4 输出按月财务摘要(收入/成本/净利润 + 分类明细)→ Agent 5 输出 3-5 条数据驱动洞察(月环比 + 风险信号 + 行动建议)。每层输出严格单向流入下一层,数据文件夹是唯一的共享状态
来自 2026-06-06-woshipm-agent-task-decomposition:
- 多 Agent 协作的工程原则被系统化——把企业微信客户咨询拆成 6 个 Agent(意图识别→用户资料查询→知识库匹配→回复生成→风险检查→跟进分配),每个 Agent 只做一件明确的事。与 YouTube 会计管道(5 Agent Sequential Pipeline)形成跨场景一致验证:Agent 落地的关键不是单个 Agent 多强,而是每个节点的边界是否足够清晰
- 真正能上线的 Agentic Workflow 三大工程属性:稳定性(输出可预期)、可观测性(中间过程可追踪)、可修复性(出错时能定位到具体节点)——“意图识别错了就改分类规则,回复不好就改话术规范,风险检查漏了就补质检规则”。这比”换一个更强的模型”有用得多
- Agent 不稳定的根因不是模型不够聪明,而是任务太大、太散、太依赖人类脑补——把模糊的大任务整包丢给 Agent(“帮我处理客户咨询”、“帮我优化整个销售流程”)必然得到看起来很完整、实际很难落地的结果。解决办法是任务拆解:把大流程拆成独立可执行节点,每个节点有明确输入/输出/成功标准
开发流程示例:视频网站开发
- 深入理解任务内容
- 推理梳理执行步骤
- 明确需求、设计方案
- 搭建框架、生成代码
- 部署上线
- 遇到问题 → 询问意见 → 重新推理 → 调整行动方案
能力范围
常见工具调用能力
- 天气查询
- 文件读写
- 网页运行
- 信息检索
- 终端命令执行
- 数据库操作
- API 调用
典型应用场景
- 自动代码生成
- 自动化测试
- 数据自动分析
- 多步骤任务自动化
- 智能客服系统
开发框架
企业级选择
- LangChain4j:完整的 Agent 工具链
- LangGraph:图结构工作流编排
- Spring AI:基础 Agent 支持
低代码平台
- Dify:拖拉拽方式构建 AI 智能体
- Cursor:内置 Agent 模式的 AI IDE
实用信息
Agent vs 传统对话
| 维度 | 传统对话 | AI Agent |
|---|---|---|
| 自主性 | 完全依赖用户引导 | 自主规划行动 |
| 工具调用 | 需用户触发 | 自动选择调用 |
| 状态管理 | 简单上下文 | 完整状态跟踪 |
| 任务复杂度 | 单步简单任务 | 多步复杂任务 |
| 错误处理 | 用户纠正 | 自动重试恢复 |
相关页面
- ReAct
- MCP 模型上下文协议
- LangChain4j
- LangGraph
- Dify
- Cursor
- AI编程开发
- Skill
- 企业AI落地
- RPA数字员工
- 人机协同
- 思维链 CoT
- 业务架构师
- Agent 六层架构
- Agent 运行治理
- 工作SOP
- AI导购
- 本体论 Agent
- To A 服务AI Agent
- 服务封装
- 2026-05-23-woshipm-sop-as-cot-agent-clone-expert
- 2026-05-23-woshipm-enterprise-ai-implementation-methodology
- 2026-05-27-woshipm-ai-ecommerce-kol-agent
- 2026-05-27-woshipm-enterprise-ai-agent-ontology