如果你只把 Codex 当编程工具，可能看错了

Codex 正悄然从代码生成工具进化为 Agent 工作台，它真正改变的不是”代码怎么写”，而是”用户如何把真实任务交给 Agent 执行、监督、纠偏和沉淀”——Agent 产品的竞争不是功能点竞争，而是任务链组织能力竞争。

基本信息

来源类型：文章
原文位置：raw/articles/2026-06-02-170038-tg-206941.md
原文 URL：https://www.woshipm.com/ai/6405654.html
消化日期：2026-06-02

核心观点

Codex 的本质变化不是写代码更强，而是 OpenAI 在把它做成 Agent 工作台：模型、文件、终端、浏览器、移动端、记忆、Skill、hooks、自动化和 review 机制被组织成一条连续的任务工作台。与普通 AI 工具”你问它答”不同，Agent 工作台是”你给目标，它进入环境，拆任务，调用工具，执行动作，展示结果，接受监督，最后把经验沉淀下来”。——来源：原文第三、四节
PRD 案例揭示了 Agent 协作的核心价值不是”生成”而是”纠偏后继续推进”：作者用 Codex 生成 GEO 问题库 Agent 的 PRD，Codex 第一次把问题库 Agent 和检测 Agent 的职责混在一起，作者指出边界后 Codex 重新收敛理解并继续推进到 SDD 和 HTML 原型。这说明 Agent 写得快不重要，重要的是它能不能在被纠偏后继续沿着正确边界推进。——来源：原文”从一个 PRD 生成案例”节
Agent 产品的竞争不是功能点竞争，而是任务链组织能力竞争：Claude Code 有 CLI/IDE/hooks/memory，Cursor/Windsurf 在 agentic IDE 上很强，Devin 像云端 AI 工程师——单独比功能谁都有。真正差异化的是任务链的完整度：用户提出目标 → Agent 理解上下文 → 进入环境 → 执行任务 → 展示结果 → 用户审批纠偏 → 经验沉淀 → 下次复用。链路越顺，用户体感越强。——来源：原文”强的不是有某个功能”节
Agent 产品五问框架是评估任何 AI 产品长期价值的核心工具：① 你的 Agent 服务的高密度场景是什么？② 你解决的是功能缺口还是工作流断点？③ 你的 Agent 有没有进入真实环境？④ 你的 Agent 有没有长期复利机制？⑤ 你的 Agent 有没有治理机制？——来源：原文”产品经理真正该学的”节
不要用调用量判断 Agent，要用”每周被用户验证通过的可托付任务数”作为北极星指标：这个指标包含三层——每周说明持续使用，可托付任务说明有明确目标和交付结果，验证通过说明结果被用户确认可用。下拆指标包括：任务完成率、人工接管次数、重复解释次数、高风险动作拦截次数、Skill 复用率、任务返工率。——来源：原文”不要用调用量判断 Agent”节
Codex 的用户体感更强来自五个结构性优势：① 复杂工具下沉到 Agent 执行层（CLI/终端/Git 不再是用户界面）；② 进入真实环境而非只在聊天框给建议；③ 记忆和 Skill 让一次任务变成长期复利；④ Hooks/审批/Sandbox 解决”敢不敢授权”的信任问题；⑤ 手机不是开发机而是指挥台（跨端设备角色重新分配）。——来源：原文”用户体感为什么会更强”节
PM 的角色不是被 Agent 替代，而是从”手工写所有材料的人”变成”定义边界、纠偏判断、验收结果、沉淀规则的人”：战略取舍不能交给 Agent，业务边界不能默认相信 Agent，高风险输出不能直接发布，指标解释不能只看表面。——来源：原文最后两节

实操内容保留

Prompt 模板

以下是作者公开的 PM × Agent 0-1 PRD 协作完整提示词，核心设计是强制 Agent 先做三件事：复述理解、暴露边界、列出待确认问题。

你现在是一个产品经理助理。请不要一上来直接写 PRD。

我会给你一些业务背景、用户需求或已有材料。

你的第一步是先做”理解对齐”，输出以下内容：

产品定位：这个产品 / Agent 处在什么业务链路里？上游是谁，下游是谁？

核心问题：它真正要解决的业务问题是什么？不要只复述功能。

目标用户与角色：谁会使用它？谁负责判断结果？谁会接收它的输出？

使用场景：列出 3-5 个最核心场景，并说明每个场景的触发时刻和成功结果。

做什么 / 不做什么：明确产品范围和非目标，特别是不要把上下游模块职责混进来。

MVP 范围：第一版只做哪些最小闭环？哪些先不做？

核心流程：用”输入 → 处理 → 人工判断 → 输出 → 记录 / 沉淀”的方式描述流程。

输入输出字段：列出关键输入、关键输出、状态字段、风险字段和下游需要读取的字段。

人工判断点：哪些地方不能让模型自动决定，必须交给人判断？

验收标准和指标：怎么判断这版产品可用？至少给出效率、质量、风险、复用四类指标。

风险与边界：列出可能的误判、合规、数据、版本、下游兼容风险。

需要我补充的信息：列出你无法判断、必须向我追问的问题。先只输出”理解对齐版”，不要生成正式 PRD。

等我确认和纠偏后，你再按下面结构生成 PRD： – 文档元信息：状态、Owner、版本、产品定位、上下游、文档边界 – 摘要：一句话说明产品解决什么问题、服务谁、输出什么 – 背景与问题定义 – 产品目标与非目标 – 目标用户与核心场景 – MVP 范围：包含 / 不包含 – 核心业务流程 – 功能需求：按模块写输入、处理、输出、异常、人工判断 – 输入输出 Schema：字段、枚举、状态、必填 / 选填、下游接口需求 – 页面或功能结构 – 日志、版本与回滚 – 验收标准 – 指标体系 – 风险与应对 – 决策记录与后续待展开内容

写作要求： – 不要写空泛愿景，要写可交付、可评审、可开发的内容； – 不确定的地方不要编，标为”待确认”； – 发现上下游边界不清时，先提醒我，不要自行合并职责； – 每个模块都要说明输入、输出、失败情况和人工介入点。

操作步骤：PM × Agent 0-1 协作流程

模糊想法 → 让 Agent 先复述理解 → 找出产品边界偏差 → 用户纠偏关键判断 → Agent 更新 PRD / SDD / 原型 → 把纠偏沉淀成下一次 SOP

操作步骤：Agent 工作台指标口径

可托付任务完成率：用户交给 Agent 的任务中，最终被验收通过的比例
人工接管次数：任务过程中用户被迫接手的次数
重复解释次数：用户对同类背景、偏好、规则的重复说明次数
高风险动作拦截次数：hooks/权限系统拦住的危险操作
Skill 复用率：已沉淀 Skill 在相似任务中的使用比例
任务返工率：用户验收后要求重做或大改的比例

关键概念

Codex — OpenAI 推出的任务执行工具，本文将其重新定位为 Agent 工作台
AI产品PRD — 本文提供了 PM × Agent 协作生成 PRD 的完整 Prompt 和纠偏流程
人机协同 — 本文展示了”用户给目标、Agent 执行、用户纠偏”的协作模式
Agent 工作台 — OpenAI 正在打造的产品形态：把模型、文件、终端、浏览器、记忆、Skill、hooks 组织成连续的任务执行环境
可托付任务 — Agent 工作台的北极星指标：每周被用户验证通过的可托付任务数
任务链 — Agent 产品的核心竞争维度：从用户提出目标到经验沉淀的完整闭环

与其他素材的关联

与 2026-05-27-通过codex解析Agent工作流程的关联：Grace 那篇从技术架构视角（项目隔离 + MCP + RAG + Skill + Agent 五层）解析 Codex 工作台，本文从产品视角（任务链 + 纠偏 + 治理 + 指标）重新定义同一产品。两篇形成”技术架构 ↔ 产品设计”的双面互补。
与 2026-05-28-codex-11-tips 的关联：Codex 团队 11 条技巧从官方机制视角（Durable Threads + Steering + Queuing + Goals + Shared Memory）讲”怎么用好”，本文从产品方法论视角讲”为什么值得用”和”怎么评估 Agent 产品的价值”。
与 2026-06-02-woshipm-codex-10-practices 的关联：10 个玩法从非程序员实操视角展示 Codex 的日常应用场景，本文从 PM 战略视角阐述 Codex 作为 Agent 工作台的产品设计哲学。三篇形成”战略→机制→实操”三层互补。
与 2026-05-18-woshipm-ai-product-prd 的关联：AI 产品 PRD 方法论（不确定性治理 + Bad Case 池 + HITL 设计）是本文 PRD 协作 Prompt 的上层方法论——本文给出的 Prompt 是”怎么让 Agent 帮你生成 PRD”，那篇给出的是”PRD 里必须包含什么”。

原文精彩摘录

普通 AI 工具更像回答者：你问，它答；你给上下文，它生成内容。Agent 工作台更像协作者：你给目标，它进入环境，拆任务，调用工具，执行动作，展示结果，接受监督，最后把经验沉淀下来。

很多人还在比谁更会写代码，但问题已经变了。从产品视角看，Codex 真正的变化不是”写代码能力又强了一点”，而是 OpenAI 在把模型、文件、终端、浏览器、移动端、记忆、Skill、hooks、自动化和 review 机制，组织成一个连续的任务工作台。

Agent 写得快不重要，重要的是它能不能在被纠偏后继续沿着正确边界推进。这件事让我对 Codex 的判断发生了变化——它不是一个”更会写代码的工具”，而是一个正在成型的 Agent 工作台样本。

未来 AI 产品的竞争，不是看谁接了更强的模型，而是看谁能更低摩擦地进入用户真实工作流，并持续完成可托付任务。

很多团队做 AI 产品，容易盯着调用次数、对话轮次、生成量。但对 Agent 工作台来说，这些指标不够。用户聊得越多，不一定代表产品越好。有时恰恰说明 Agent 没听懂，用户被迫反复解释。

不要把 Codex 当成编程工具。如果你从产品视角看，你会看到另一件事：OpenAI 正在尝试把用户的一部分数字工作流，交给一个可监督、可复盘、可沉淀的 Agent 系统。

个人知识库

探索

2026-06-02-woshipm-codex-agent-workbench

如果你只把 Codex 当编程工具，可能看错了

基本信息

核心观点

实操内容保留

Prompt 模板

操作步骤：PM × Agent 0-1 协作流程

操作步骤：Agent 工作台指标口径

关键概念

与其他素材的关联

原文精彩摘录

相关页面

关系图谱

快速导航

目录

反向链接