Steps to AGI 分级

AI 产品发展三阶段分级法(L1 对话级 / L2 推理级 / L3 任务级),用于”先定位竞品阶段再决定评测重点”——不同 L 级的产品评测重点完全不同,用 L1 标准测 L3 Agent 等于用打字速度评测程序员。

简介

Steps to AGI 分级是浩子AIPM 在 4 周 AI 竞品分析任务复盘后总结的”4 周最大的认知收益”。它解决的核心问题是:不同形态的 AI 产品其本质是不同物种——把 Deep Research、对话助手、Agent 强行用同一套评测框架比较,结果一定是”驴唇不对马嘴”。分级法把 AI 产品按”能做到什么”分成三阶段,每个阶段对应不同的评测重点和关键指标。

这套分级法的命名借鉴了 OpenAI 公布的 “Steps to AGI” 五级路线图思路(Level 1 Chatbot → Level 2 Reasoner → Level 3 Agent → Level 4 Innovator → Level 5 Organization),但在 PM 竞品分析场景下被收敛为最实用的三级(L1/L2/L3)。L4/L5 属于 AGI 雏形和组织级 AI,目前竞品分析场景里几乎不会遇到。

它在 AI竞品分析 方法论中处于”四层架构 + Steps to AGI 分级”这一替代六层架构的位置——四层架构去掉了套壳时代雷同的层级,Steps to AGI 分级则负责给竞品做粗筛和评测重点定位。

关键信息

  • 类型:分级框架(概念类实体)
  • 领域:AI 产品评估 / 竞品分析 / 模型能力评测
  • 核心组成:L1 对话级 / L2 推理级 / L3 任务级
  • 典型应用:AI 产品竞品分析的粗筛、评测重点定位、L 级不同则直接剔除(不是真正竞品)
  • 相关概念AI竞品分析(分级法的母方法论)、AI评估计分板(评测体系底座)、思维链 CoT(L2 推理级对应能力)、AI Agent 智能体(L3 任务级对应形态)、ReAct(L3 任务级的工程化模板)

核心特性

三级定义与评测重点

等级定义评测重点关键指标典型产品形态
L1 对话级以对话为核心对话质量理解力 / 上下文记忆 / 回应自然度ChatGPT 早期版、客服对话助手、聊天伴侣
L2 推理级能完成多步推理推理深度逻辑链 / Long CoT 表现 / 知识应用Deep Research、复杂问答、数学/编程类助手
L3 任务级自主规划并执行任务任务完成度目标对齐 / 工具调用 / 自我修正AutoGPT/Devin 类 Agent、Claude Code、企业级 Agent(如 G7 易流 IoT 诊断 Agent)

核心命题不同 L 级的产品,评测重点完全不同——

  • 用 L1 标准(看对话流畅度)测 L3 Agent(要看能不能完成多步任务)= 用打字速度评测程序员
  • 用 L3 标准(看任务完成度)测 L1 助手(设计就是聊天)= 用工程严谨度评测脱口秀演员

5 分钟竞品分级 SOP

接到 AI 竞品分析任务后的第一动作

  1. 第一步:拉出所有候选竞品清单
  2. 第二步:用 5 分钟把每个竞品打 L1/L2/L3 标签
  3. 第三步:不在同一级的直接剔除——它们不是真正的竞品,是不同物种
  4. 第四步:同级竞品按对应评测重点深入对比

这个 5 分钟 SOP 省的不只是时间,更是方向性的错误——避免了”花两周做出大杂烩对比表,结果评审被反问’这不就是几个不同物种放一起‘“的尴尬。

不同 L 级的评测策略差异

L1 对话级评测策略

  • 重点:理解力测试集 + 上下文记忆测试 + 多轮对话自然度
  • 工具:人工评分 + LLM-as-a-Judge(如 AI评估计分板 的 U 维度——TTFT / 对话修复率 / 平均对话轮次)
  • 评测集:日常对话、闲聊、情绪安抚等场景
  • 不适合用:复杂推理题、多步任务题

L2 推理级评测策略

  • 重点:逻辑链完整度 + 推理过程合理性 + 知识应用准确度
  • 工具:评测集打分 + 推理过程拆解(Long CoT 评测)+ 知识库准确性测试
  • 评测集:数学题、编程题、Deep Research 类问答(参考浩子AIPM 评测 Deep Research 用的 30 题——新闻时效 / 金融分析 / 行业研究 / 学术综述)
  • 不适合用:纯对话流畅度评估

L3 任务级评测策略

  • 重点:任务完成度 + 工具调用正确性 + 自我修正能力 + ReAct 循环执行质量
  • 工具:端到端任务完成率 + 工具调用成功率 + 错误恢复率(参考 2026-05-23-woshipm-sop-as-cot-agent-clone-expert 的 G7 易流 ReAct 工程化模板)
  • 评测集:真实业务任务(如 IoT 设备诊断、客服工单处理、代码 Bug 修复)
  • 不适合用:单轮对话评分、纯知识 QA

与 PM 工作场景的关联

PM 场景应用
竞品分析用作”先定位 L 级,再决定评测重点”的粗筛工具
模型选型不同 L 级业务场景需要不同能力等级的模型,避免”杀鸡用牛刀”或”小马拉大车”
立项判断评估自家产品要做到哪一 L 级——决定了开发成本、评测体系投入、团队能力要求
产品定位对内对外说清”我们是 L 几”,避免被用户用错误的预期框架评估

局限性与适用边界

  1. 不适合非 AI 产品:对传统 SaaS / 工具类产品没意义
  2. L 级之间存在过渡形态:例如 ChatGPT 既能对话(L1)也能推理(L2)——分级时按”主要使用场景”打标签
  3. 企业级 Agent 多为 L2+L3 混合:实际工程化中诊断 Agent 既要推理也要工具调用,按 L3 评测但兼顾 L2 推理质量
  4. L4/L5 暂不实用:AGI 雏形和组织级 AI 在当前竞品分析场景几乎不会遇到,遇到了再扩展

不同素材中的观点

  • 2026-05-20-ai-pm-competitive-analysis:浩子AIPM 在第二周用六层架构对比 4 家通用大模型厂商失败(4 层雷同度 90%+),第三周换成四层架构 + Steps to AGI 分级后才打开思路。作者称这是”整个 4 周最大的认知收益”,并把 5 分钟 L 级分类作为 AI 竞品分析的标准 SOP 第一步。作者强调:不在同一级的直接剔除——它们不是真正的竞品,是不同物种

实用信息

快速判定 L 级的判断准则

看什么L1 对话级L2 推理级L3 任务级
用户输入是什么?一句话问 / 闲聊复杂问题 / 多步问答任务描述(“帮我做 X”)
AI 输出是什么?一段回复推理过程 + 答案任务执行结果 + 中间步骤
是否调用工具?通常不调用偶尔调用搜索必须调用多个工具
是否能自我修正?不需要推理失误可重新推理必须能识别失败并重试
评测重点流畅度 + 准确度逻辑链 + 推理深度任务完成度 + 工具调用

与其他分级体系的对比

分级体系来源粒度适用场景
Steps to AGI(L1/L2/L3)浩子AIPM 收敛版(基于 OpenAI 五级思路)三级PM 竞品分析、模型选型
OpenAI Steps to AGI 五级OpenAI 官方路线图(Chatbot/Reasoner/Agent/Innovator/Organization)五级长期战略规划
Agent 自主等级(人类掌控 → 完全自主)学术界多级连续Agent 安全研究

常见误用

  1. 把所有 AI 产品强行打 L3 标签:不是只要叫”Agent”就是 L3,关键看是否真的能自主规划+工具调用+自我修正
  2. L1/L2/L3 的边界模糊就放弃使用:模糊就按主要使用场景打标签,分级法的核心价值是粗筛而非精确分类
  3. 用 L 级当产品营销标签:L 级是评测工具不是营销话术,用户不关心你是 L 几,关心你能不能解决问题
  4. 跳过 L 级直接做评测:评测集没有匹配 L 级的评测重点,跑出来的结果不能支持决策

相关页面