可托付任务
Agent 工作台的北极星指标——每周被用户验证通过的可托付任务数。它衡量的不是 AI 被使用了多少次,而是 AI 有没有真正减少用户完成真实任务的成本。
简介
“可托付任务”(Entrustable Task)是 2026-06-02-woshipm-codex-agent-workbench 提出的 Agent 产品评估北极星指标。它的核心洞察是:传统的 AI 产品指标(调用次数、对话轮次、生成量)无法衡量 Agent 工作台的真实价值——用户聊得越多,不一定代表产品越好,有时恰恰说明 Agent 没听懂,用户被迫反复解释。
这个指标包含三层意思:每周说明不是一次性尝鲜而是持续使用;可托付任务说明任务有明确目标、真实环境和交付结果;验证通过说明结果被用户或系统确认可用。它把 AI 产品评估从”有没有被使用”推进到”有没有帮助用户完成真实任务”。
关键信息
| 维度 | 内容 |
|---|---|
| 类型 | AI 产品指标概念 |
| 提出者 | Junliu(人人都是产品经理,2026-06-01) |
| 定义 | 每周被用户验证通过的可托付任务数 |
| 适用场景 | Agent 工作台、AI 编程工具、AI 办公助手等需要交付结果的 AI 产品 |
| 与传统指标区别 | 传统指标衡量”使用量”,可托付任务衡量”交付质量” |
核心特性
1. 三层含义
- 每周:说明不是一次性尝鲜,而是持续使用。偶尔用一次 AI 和每周都把任务交给 Agent 是完全不同的产品状态。
- 可托付任务:说明任务有明确目标、真实环境和交付结果。不是”帮我查个资料”这种问答,而是”帮我生成一份 PRD 并推进到原型”这种需要交付物的完整任务。
- 验证通过:说明结果被用户或系统确认可用。Agent 生成了一份文档不等于任务完成,用户审阅确认后才算。
2. 与传统 AI 指标的对比
| 传统指标 | 问题 | 可托付任务指标 |
|---|---|---|
| 调用次数 | 调用多可能是 Agent 没听懂导致反复追问 | 看最终交付结果而非中间过程 |
| 对话轮次 | 轮次多不代表价值高 | 一次可托付任务可能包含多轮对话,但关键是最终验收 |
| 生成量 | 生成多不等于有用 | 以用户验收通过为标准 |
| 留存率 | 留存可能是习惯而非价值 | 以任务完成率为前提的留存才有意义 |
3. 下拆指标体系
可托付任务完成率是北极星,下拆六个过程指标:
- 任务完成率:用户交给 Agent 的任务中,最终被验收通过的比例——判断 Agent 是否真的能交付结果
- 人工接管次数:任务过程中用户被迫接手的次数——判断自动化是否足够稳定
- 重复解释次数:用户对同类背景、偏好、规则的重复说明次数——判断记忆和 Skill 是否有效
- 平均执行时长:从任务发出到验收通过的时间——判断 Agent 的执行效率
- 高风险动作拦截次数:hooks/权限系统拦住的危险操作——判断治理层是否产生价值
- Skill 复用率:已沉淀 Skill 在相似任务中的使用比例——判断产品是否形成长期复利
- 任务返工率:用户验收后要求重做或大改的比例——判断 Agent 输出质量是否可靠
4. 为什么调用量是危险的误导指标
调用量上涨可能是两种完全相反的情况:用户更依赖产品(正面),或者 Agent 没听懂导致反复追问(负面)。类似地,对话轮次增加可能是用户在深度使用,也可能是 Agent 反复犯错用户被迫反复纠正。可托付任务指标通过”验证通过”这个终端判断,过滤掉了”使用但无效”的噪音。
不同素材中的观点
- 2026-06-02-woshipm-codex-agent-workbench:首次提出可托付任务概念。原文金句——“每周被用户验证通过的可托付任务数”作为 Agent 工作台的北极星指标。作者强调这类指标不只衡量”AI 有没有被使用”,而是衡量”AI 有没有减少用户完成真实任务的成本”。好的 Agent 工作台,不是功能最多的产品,而是能持续提高可托付任务完成率,同时降低用户解释成本、人工接管成本和风险成本的系统。
实用信息
如何在 PRD 中使用可托付任务指标
建议把指标口径写得更具体:
- 可托付任务完成率:用户交给 Agent 的任务中,最终被验收通过的比例——判断 Agent 是否真的能交付结果
- 人工接管次数:任务过程中用户被迫接手的次数——判断自动化是否足够稳定
- 重复解释次数:用户对同类背景、偏好、规则的重复说明次数——判断记忆和 Skill 是否有效
- 高风险动作拦截次数:hooks/权限系统拦住的危险操作——判断治理层是否产生价值
- Skill 复用率:已沉淀 Skill 在相似任务中的使用比例——判断产品是否形成长期复利
- 任务返工率:用户验收后要求重做或大改的比例——判断 Agent 输出质量是否可靠
常见误区
- 把调用量等同于产品价值:调用多可能只是 Agent 没听懂导致用户反复尝试。
- 把留存率等同于用户满意:用户留存可能是因为没有替代品,而非产品真的好用。
- 忽略人工接管次数:如果用户频繁被迫接手,说明自动化水平不够,Agent 只是”辅助”而非”工作台”。
- 不追踪重复解释次数:这是记忆/Skill 系统是否有效的直接信号——重复解释越多,复利机制越弱。
- 只看完成率不看返工率:完成率高但返工率也高,说明 Agent 的”完成”标准和用户的不一致。