可托付任务

Agent 工作台的北极星指标——每周被用户验证通过的可托付任务数。它衡量的不是 AI 被使用了多少次,而是 AI 有没有真正减少用户完成真实任务的成本。

简介

“可托付任务”(Entrustable Task)是 2026-06-02-woshipm-codex-agent-workbench 提出的 Agent 产品评估北极星指标。它的核心洞察是:传统的 AI 产品指标(调用次数、对话轮次、生成量)无法衡量 Agent 工作台的真实价值——用户聊得越多,不一定代表产品越好,有时恰恰说明 Agent 没听懂,用户被迫反复解释。

这个指标包含三层意思:每周说明不是一次性尝鲜而是持续使用;可托付任务说明任务有明确目标、真实环境和交付结果;验证通过说明结果被用户或系统确认可用。它把 AI 产品评估从”有没有被使用”推进到”有没有帮助用户完成真实任务”。

关键信息

维度内容
类型AI 产品指标概念
提出者Junliu(人人都是产品经理,2026-06-01)
定义每周被用户验证通过的可托付任务数
适用场景Agent 工作台、AI 编程工具、AI 办公助手等需要交付结果的 AI 产品
与传统指标区别传统指标衡量”使用量”,可托付任务衡量”交付质量”

核心特性

1. 三层含义

  • 每周:说明不是一次性尝鲜,而是持续使用。偶尔用一次 AI 和每周都把任务交给 Agent 是完全不同的产品状态。
  • 可托付任务:说明任务有明确目标、真实环境和交付结果。不是”帮我查个资料”这种问答,而是”帮我生成一份 PRD 并推进到原型”这种需要交付物的完整任务。
  • 验证通过:说明结果被用户或系统确认可用。Agent 生成了一份文档不等于任务完成,用户审阅确认后才算。

2. 与传统 AI 指标的对比

传统指标问题可托付任务指标
调用次数调用多可能是 Agent 没听懂导致反复追问看最终交付结果而非中间过程
对话轮次轮次多不代表价值高一次可托付任务可能包含多轮对话,但关键是最终验收
生成量生成多不等于有用以用户验收通过为标准
留存率留存可能是习惯而非价值以任务完成率为前提的留存才有意义

3. 下拆指标体系

可托付任务完成率是北极星,下拆六个过程指标:

  1. 任务完成率:用户交给 Agent 的任务中,最终被验收通过的比例——判断 Agent 是否真的能交付结果
  2. 人工接管次数:任务过程中用户被迫接手的次数——判断自动化是否足够稳定
  3. 重复解释次数:用户对同类背景、偏好、规则的重复说明次数——判断记忆和 Skill 是否有效
  4. 平均执行时长:从任务发出到验收通过的时间——判断 Agent 的执行效率
  5. 高风险动作拦截次数:hooks/权限系统拦住的危险操作——判断治理层是否产生价值
  6. Skill 复用率:已沉淀 Skill 在相似任务中的使用比例——判断产品是否形成长期复利
  7. 任务返工率:用户验收后要求重做或大改的比例——判断 Agent 输出质量是否可靠

4. 为什么调用量是危险的误导指标

调用量上涨可能是两种完全相反的情况:用户更依赖产品(正面),或者 Agent 没听懂导致反复追问(负面)。类似地,对话轮次增加可能是用户在深度使用,也可能是 Agent 反复犯错用户被迫反复纠正。可托付任务指标通过”验证通过”这个终端判断,过滤掉了”使用但无效”的噪音。

不同素材中的观点

  • 2026-06-02-woshipm-codex-agent-workbench:首次提出可托付任务概念。原文金句——“每周被用户验证通过的可托付任务数”作为 Agent 工作台的北极星指标。作者强调这类指标不只衡量”AI 有没有被使用”,而是衡量”AI 有没有减少用户完成真实任务的成本”。好的 Agent 工作台,不是功能最多的产品,而是能持续提高可托付任务完成率,同时降低用户解释成本、人工接管成本和风险成本的系统。

实用信息

如何在 PRD 中使用可托付任务指标

建议把指标口径写得更具体:

  • 可托付任务完成率:用户交给 Agent 的任务中,最终被验收通过的比例——判断 Agent 是否真的能交付结果
  • 人工接管次数:任务过程中用户被迫接手的次数——判断自动化是否足够稳定
  • 重复解释次数:用户对同类背景、偏好、规则的重复说明次数——判断记忆和 Skill 是否有效
  • 高风险动作拦截次数:hooks/权限系统拦住的危险操作——判断治理层是否产生价值
  • Skill 复用率:已沉淀 Skill 在相似任务中的使用比例——判断产品是否形成长期复利
  • 任务返工率:用户验收后要求重做或大改的比例——判断 Agent 输出质量是否可靠

常见误区

  1. 把调用量等同于产品价值:调用多可能只是 Agent 没听懂导致用户反复尝试。
  2. 把留存率等同于用户满意:用户留存可能是因为没有替代品,而非产品真的好用。
  3. 忽略人工接管次数:如果用户频繁被迫接手,说明自动化水平不够,Agent 只是”辅助”而非”工作台”。
  4. 不追踪重复解释次数:这是记忆/Skill 系统是否有效的直接信号——重复解释越多,复利机制越弱。
  5. 只看完成率不看返工率:完成率高但返工率也高,说明 Agent 的”完成”标准和用户的不一致。

相关页面