通过 Codex 解析 Agent 工作流程

从大模型训练到 Agent 落地的全链路拆解:预训练造大脑、微调教规矩、评估考过才能上岗,再用项目隔离资源、MCP 连接外部、RAG 补充知识、Skill 组装能力、Agent 自主规划,构成 AI 应用的完整图景

基本信息

核心观点

  1. 大模型上岗前必须过”预训练→微调→评估”三关:预训练用海量文本自学规律,微调用人工标注的问答对教模型安全和遵循指令,评估用准确率、召回率、幻觉率三把尺子量,合格才能放出去使用
  2. 项目级资源隔离是多项目协作的前提:全局工作台与项目工作台默认隔离(项目 A 不能调用项目 B 的资源),只有显式授权才能跨项目调用——这个设计直接决定 Skill 和知识库的共享边界
  3. 短期记忆 vs 长期记忆是对话产品必须解决的核心问题:单窗口有 Token 上下文限制,多窗口之间记忆完全隔离;解决方案是 MCP 接入 Basic Memory,每次聊天自动记笔记,跨窗口跨项目都能用
  4. RAG 的核心价值是解决三大问题:知识过时、记忆容量限制、幻觉;向量知识库通过语义匹配(而非关键词匹配)实现更聪明的检索,是 RAG 效果的分水岭
  5. Agent 与 Skill 的本质区别:Skill 是工具,Agent 是知道何时以及如何组合使用这些工具的”大脑”——Skill 只能执行你知道且确定的事,Agent 能在不确定中自主规划、处理未知情况

实操内容保留

Prompt 模板

请帮我在这个项目下再创建一个名为”竞品侦探”的 Agent,并在它的系统提示词里写明:“你是市场分析师。互联网产品市场分析应从市场规模、增长趋势、竞争格局、用户需求、政策与技术可行性五个维度展开;分析材料主要来自行业报告、券商研报、政府公开数据、竞品财报、用户调研、App Store 排名;产出文档为《市场分析报告》或《市场洞察报告》。分析竞品时,必须列出3个对比维度和引用出处,没钱拿数据就直说,绝对不准瞎编。“

操作步骤

在 Codex 中配置 MCP 长期记忆(Basic Memory)

  1. 进入 Codex 设置 → MCP 服务器页面
  2. 配置 Basic Memory 工具
  3. 每次聊天时,它自动记笔记,新内容随时加进去
  4. 跨窗口跨项目都可使用,无需重复描述上下文

在 Codex 中安装 Skill

  1. 在对话框中输入”帮我安装 skill + skill 的地址”
  2. AI 会自动安装对应的 Skill
  3. 后续发起任务时 AI 会根据任务描述自动判断并匹配合适的 Skill,无需手动指定

创建向量知识库并放入长文档(Codex 中操作):

  1. 让 AI 创建向量知识库
  2. 导入长文档(如几百页的 PDF)
  3. 提问时系统自动调用知识库内容作答
  4. 注意:事实来源来自知识库文件,最终表述经过 LLM 总结

关键概念

  • Codex — OpenAI 推出的 AI 工作台,本文的核心操作平台,集成了项目管理、MCP、Skill、Agent 等全套能力
  • MCP 模型上下文协议 — 连接 AI 与外部工具、数据和服务的”通用接口协议”,文中演示了通过 MCP 接入 Basic Memory 实现跨对话记忆
  • RAG 知识库 — 检索增强生成技术,解决知识过时、记忆容量限制、幻觉三大问题;文中对比了普通知识库(关键词匹配)与向量知识库(语义匹配)
  • AI Agent 智能体 — 与 Skill 的本质区别:Agent 是知道何时以及如何组合 Skill 的”大脑”,能在不确定中自主规划
  • Skill — AI 的”能力工具箱”,每个 Skill 是预定义的工作流程和参数模板,Agent 根据任务自动匹配调用
  • Embedding 嵌入 — 将文本转成”数字指纹”(向量),实现语义匹配检索,是向量知识库的底层技术

与其他素材的关联

  • 2026-05-27-woshipm-codex-product-dev-lessons 的关系:同日发布的两篇 Codex 文章视角互补——前一篇聚焦”用 Codex 做产品开发”的实战经验,本文聚焦”理解 Codex 背后的 Agent 工作原理”,两篇结合可以形成从底层原理到实战应用的完整认知
  • 2026-04-29-yupi-ai-guide-core-concepts 的关系:鱼皮 AI 指南从概念科普角度覆盖了 MCP、RAG、Agent 等概念,本文则从 Codex 平台实战操作角度给出了具体演示,是”概念→实操”的递进

原文精彩摘录

直接调用 Skill(无 Agent):“用”翻译 Skill”把这段英文翻成中文。“模型直接执行,逻辑是:你下令 模型照做。这是一个固定流程,没有意外。通过 Agent 调用 Skill:这就像你雇了个管家。你说:“我下午要见个法国客户,帮我准备一下。“Agent(管家)会自主决策:先调用”日程 Skill”查客户背景 发现客户不懂英文 主动调用”翻译 Skill”准备法文材料 查完发现客户对茶感兴趣 又调用”知识库”查法国茶文化。整个逻辑是:你给目标 Agent 自主拆解、决策,调用什么 Skill,何时调用,以及如何处理意外。

整条链子串起来看:预训练生出大脑,微调教其更聪明,评估考过才能上岗;项目搭台分配资源,Agent 持规矩上岗;每次提问都在 Prompt、记忆、RAG、Skill、MCP 有选择性地使用并推理跑完一趟精密流水线;背后还有成本和安全拉着缰绳。这就是现在 AI 落地应用的完整图景。

相关页面