Steps to AGI 分级
AI 产品发展三阶段分级法(L1 对话级 / L2 推理级 / L3 任务级),用于”先定位竞品阶段再决定评测重点”——不同 L 级的产品评测重点完全不同,用 L1 标准测 L3 Agent 等于用打字速度评测程序员。
简介
Steps to AGI 分级是浩子AIPM 在 4 周 AI 竞品分析任务复盘后总结的”4 周最大的认知收益”。它解决的核心问题是:不同形态的 AI 产品其本质是不同物种——把 Deep Research、对话助手、Agent 强行用同一套评测框架比较,结果一定是”驴唇不对马嘴”。分级法把 AI 产品按”能做到什么”分成三阶段,每个阶段对应不同的评测重点和关键指标。
这套分级法的命名借鉴了 OpenAI 公布的 “Steps to AGI” 五级路线图思路(Level 1 Chatbot → Level 2 Reasoner → Level 3 Agent → Level 4 Innovator → Level 5 Organization),但在 PM 竞品分析场景下被收敛为最实用的三级(L1/L2/L3)。L4/L5 属于 AGI 雏形和组织级 AI,目前竞品分析场景里几乎不会遇到。
它在 AI竞品分析 方法论中处于”四层架构 + Steps to AGI 分级”这一替代六层架构的位置——四层架构去掉了套壳时代雷同的层级,Steps to AGI 分级则负责给竞品做粗筛和评测重点定位。
关键信息
- 类型:分级框架(概念类实体)
- 领域:AI 产品评估 / 竞品分析 / 模型能力评测
- 核心组成:L1 对话级 / L2 推理级 / L3 任务级
- 典型应用:AI 产品竞品分析的粗筛、评测重点定位、L 级不同则直接剔除(不是真正竞品)
- 相关概念:AI竞品分析(分级法的母方法论)、AI评估计分板(评测体系底座)、思维链 CoT(L2 推理级对应能力)、AI Agent 智能体(L3 任务级对应形态)、ReAct(L3 任务级的工程化模板)
核心特性
三级定义与评测重点
| 等级 | 定义 | 评测重点 | 关键指标 | 典型产品形态 |
|---|---|---|---|---|
| L1 对话级 | 以对话为核心 | 对话质量 | 理解力 / 上下文记忆 / 回应自然度 | ChatGPT 早期版、客服对话助手、聊天伴侣 |
| L2 推理级 | 能完成多步推理 | 推理深度 | 逻辑链 / Long CoT 表现 / 知识应用 | Deep Research、复杂问答、数学/编程类助手 |
| L3 任务级 | 自主规划并执行任务 | 任务完成度 | 目标对齐 / 工具调用 / 自我修正 | AutoGPT/Devin 类 Agent、Claude Code、企业级 Agent(如 G7 易流 IoT 诊断 Agent) |
核心命题:不同 L 级的产品,评测重点完全不同——
- 用 L1 标准(看对话流畅度)测 L3 Agent(要看能不能完成多步任务)= 用打字速度评测程序员
- 用 L3 标准(看任务完成度)测 L1 助手(设计就是聊天)= 用工程严谨度评测脱口秀演员
5 分钟竞品分级 SOP
接到 AI 竞品分析任务后的第一动作:
- 第一步:拉出所有候选竞品清单
- 第二步:用 5 分钟把每个竞品打 L1/L2/L3 标签
- 第三步:不在同一级的直接剔除——它们不是真正的竞品,是不同物种
- 第四步:同级竞品按对应评测重点深入对比
这个 5 分钟 SOP 省的不只是时间,更是方向性的错误——避免了”花两周做出大杂烩对比表,结果评审被反问’这不就是几个不同物种放一起‘“的尴尬。
不同 L 级的评测策略差异
L1 对话级评测策略
- 重点:理解力测试集 + 上下文记忆测试 + 多轮对话自然度
- 工具:人工评分 + LLM-as-a-Judge(如 AI评估计分板 的 U 维度——TTFT / 对话修复率 / 平均对话轮次)
- 评测集:日常对话、闲聊、情绪安抚等场景
- 不适合用:复杂推理题、多步任务题
L2 推理级评测策略
- 重点:逻辑链完整度 + 推理过程合理性 + 知识应用准确度
- 工具:评测集打分 + 推理过程拆解(Long CoT 评测)+ 知识库准确性测试
- 评测集:数学题、编程题、Deep Research 类问答(参考浩子AIPM 评测 Deep Research 用的 30 题——新闻时效 / 金融分析 / 行业研究 / 学术综述)
- 不适合用:纯对话流畅度评估
L3 任务级评测策略
- 重点:任务完成度 + 工具调用正确性 + 自我修正能力 + ReAct 循环执行质量
- 工具:端到端任务完成率 + 工具调用成功率 + 错误恢复率(参考 2026-05-23-woshipm-sop-as-cot-agent-clone-expert 的 G7 易流 ReAct 工程化模板)
- 评测集:真实业务任务(如 IoT 设备诊断、客服工单处理、代码 Bug 修复)
- 不适合用:单轮对话评分、纯知识 QA
与 PM 工作场景的关联
| PM 场景 | 应用 |
|---|---|
| 竞品分析 | 用作”先定位 L 级,再决定评测重点”的粗筛工具 |
| 模型选型 | 不同 L 级业务场景需要不同能力等级的模型,避免”杀鸡用牛刀”或”小马拉大车” |
| 立项判断 | 评估自家产品要做到哪一 L 级——决定了开发成本、评测体系投入、团队能力要求 |
| 产品定位 | 对内对外说清”我们是 L 几”,避免被用户用错误的预期框架评估 |
局限性与适用边界
- 不适合非 AI 产品:对传统 SaaS / 工具类产品没意义
- L 级之间存在过渡形态:例如 ChatGPT 既能对话(L1)也能推理(L2)——分级时按”主要使用场景”打标签
- 企业级 Agent 多为 L2+L3 混合:实际工程化中诊断 Agent 既要推理也要工具调用,按 L3 评测但兼顾 L2 推理质量
- L4/L5 暂不实用:AGI 雏形和组织级 AI 在当前竞品分析场景几乎不会遇到,遇到了再扩展
不同素材中的观点
- 2026-05-20-ai-pm-competitive-analysis:浩子AIPM 在第二周用六层架构对比 4 家通用大模型厂商失败(4 层雷同度 90%+),第三周换成四层架构 + Steps to AGI 分级后才打开思路。作者称这是”整个 4 周最大的认知收益”,并把 5 分钟 L 级分类作为 AI 竞品分析的标准 SOP 第一步。作者强调:不在同一级的直接剔除——它们不是真正的竞品,是不同物种。
实用信息
快速判定 L 级的判断准则
| 看什么 | L1 对话级 | L2 推理级 | L3 任务级 |
|---|---|---|---|
| 用户输入是什么? | 一句话问 / 闲聊 | 复杂问题 / 多步问答 | 任务描述(“帮我做 X”) |
| AI 输出是什么? | 一段回复 | 推理过程 + 答案 | 任务执行结果 + 中间步骤 |
| 是否调用工具? | 通常不调用 | 偶尔调用搜索 | 必须调用多个工具 |
| 是否能自我修正? | 不需要 | 推理失误可重新推理 | 必须能识别失败并重试 |
| 评测重点 | 流畅度 + 准确度 | 逻辑链 + 推理深度 | 任务完成度 + 工具调用 |
与其他分级体系的对比
| 分级体系 | 来源 | 粒度 | 适用场景 |
|---|---|---|---|
| Steps to AGI(L1/L2/L3) | 浩子AIPM 收敛版(基于 OpenAI 五级思路) | 三级 | PM 竞品分析、模型选型 |
| OpenAI Steps to AGI 五级 | OpenAI 官方路线图(Chatbot/Reasoner/Agent/Innovator/Organization) | 五级 | 长期战略规划 |
| Agent 自主等级(人类掌控 → 完全自主) | 学术界 | 多级连续 | Agent 安全研究 |
常见误用
- 把所有 AI 产品强行打 L3 标签:不是只要叫”Agent”就是 L3,关键看是否真的能自主规划+工具调用+自我修正
- L1/L2/L3 的边界模糊就放弃使用:模糊就按主要使用场景打标签,分级法的核心价值是粗筛而非精确分类
- 用 L 级当产品营销标签:L 级是评测工具不是营销话术,用户不关心你是 L 几,关心你能不能解决问题
- 跳过 L 级直接做评测:评测集没有匹配 L 级的评测重点,跑出来的结果不能支持决策