Steps to AGI 分级

AI 产品发展三阶段分级法（L1 对话级 / L2 推理级 / L3 任务级），用于”先定位竞品阶段再决定评测重点”——不同 L 级的产品评测重点完全不同，用 L1 标准测 L3 Agent 等于用打字速度评测程序员。

简介

Steps to AGI 分级是浩子AIPM 在 4 周 AI 竞品分析任务复盘后总结的”4 周最大的认知收益”。它解决的核心问题是：不同形态的 AI 产品其本质是不同物种——把 Deep Research、对话助手、Agent 强行用同一套评测框架比较，结果一定是”驴唇不对马嘴”。分级法把 AI 产品按”能做到什么”分成三阶段，每个阶段对应不同的评测重点和关键指标。

这套分级法的命名借鉴了 OpenAI 公布的 “Steps to AGI” 五级路线图思路（Level 1 Chatbot → Level 2 Reasoner → Level 3 Agent → Level 4 Innovator → Level 5 Organization），但在 PM 竞品分析场景下被收敛为最实用的三级（L1/L2/L3）。L4/L5 属于 AGI 雏形和组织级 AI，目前竞品分析场景里几乎不会遇到。

它在 AI竞品分析方法论中处于”四层架构 + Steps to AGI 分级”这一替代六层架构的位置——四层架构去掉了套壳时代雷同的层级，Steps to AGI 分级则负责给竞品做粗筛和评测重点定位。

关键信息

类型：分级框架（概念类实体）
领域：AI 产品评估 / 竞品分析 / 模型能力评测
核心组成：L1 对话级 / L2 推理级 / L3 任务级
典型应用：AI 产品竞品分析的粗筛、评测重点定位、L 级不同则直接剔除（不是真正竞品）
相关概念：AI竞品分析（分级法的母方法论）、AI评估计分板（评测体系底座）、思维链 CoT（L2 推理级对应能力）、AI Agent 智能体（L3 任务级对应形态）、ReAct（L3 任务级的工程化模板）

核心特性

三级定义与评测重点

等级	定义	评测重点	关键指标	典型产品形态
L1 对话级	以对话为核心	对话质量	理解力 / 上下文记忆 / 回应自然度	ChatGPT 早期版、客服对话助手、聊天伴侣
L2 推理级	能完成多步推理	推理深度	逻辑链 / Long CoT 表现 / 知识应用	Deep Research、复杂问答、数学/编程类助手
L3 任务级	自主规划并执行任务	任务完成度	目标对齐 / 工具调用 / 自我修正	AutoGPT/Devin 类 Agent、Claude Code、企业级 Agent（如 G7 易流 IoT 诊断 Agent）

核心命题：不同 L 级的产品，评测重点完全不同——

用 L1 标准（看对话流畅度）测 L3 Agent（要看能不能完成多步任务）= 用打字速度评测程序员
用 L3 标准（看任务完成度）测 L1 助手（设计就是聊天）= 用工程严谨度评测脱口秀演员

5 分钟竞品分级 SOP

接到 AI 竞品分析任务后的第一动作：

第一步：拉出所有候选竞品清单
第二步：用 5 分钟把每个竞品打 L1/L2/L3 标签
第三步：不在同一级的直接剔除——它们不是真正的竞品，是不同物种
第四步：同级竞品按对应评测重点深入对比

这个 5 分钟 SOP 省的不只是时间，更是方向性的错误——避免了”花两周做出大杂烩对比表，结果评审被反问’这不就是几个不同物种放一起‘“的尴尬。

不同 L 级的评测策略差异

L1 对话级评测策略

重点：理解力测试集 + 上下文记忆测试 + 多轮对话自然度
工具：人工评分 + LLM-as-a-Judge（如 AI评估计分板的 U 维度——TTFT / 对话修复率 / 平均对话轮次）
评测集：日常对话、闲聊、情绪安抚等场景
不适合用：复杂推理题、多步任务题

L2 推理级评测策略

重点：逻辑链完整度 + 推理过程合理性 + 知识应用准确度
工具：评测集打分 + 推理过程拆解（Long CoT 评测）+ 知识库准确性测试
评测集：数学题、编程题、Deep Research 类问答（参考浩子AIPM 评测 Deep Research 用的 30 题——新闻时效 / 金融分析 / 行业研究 / 学术综述）
不适合用：纯对话流畅度评估

L3 任务级评测策略

重点：任务完成度 + 工具调用正确性 + 自我修正能力 + ReAct 循环执行质量
工具：端到端任务完成率 + 工具调用成功率 + 错误恢复率（参考 2026-05-23-woshipm-sop-as-cot-agent-clone-expert 的 G7 易流 ReAct 工程化模板）
评测集：真实业务任务（如 IoT 设备诊断、客服工单处理、代码 Bug 修复）
不适合用：单轮对话评分、纯知识 QA

与 PM 工作场景的关联

PM 场景	应用
竞品分析	用作”先定位 L 级，再决定评测重点”的粗筛工具
模型选型	不同 L 级业务场景需要不同能力等级的模型，避免”杀鸡用牛刀”或”小马拉大车”
立项判断	评估自家产品要做到哪一 L 级——决定了开发成本、评测体系投入、团队能力要求
产品定位	对内对外说清”我们是 L 几”，避免被用户用错误的预期框架评估

局限性与适用边界

不适合非 AI 产品：对传统 SaaS / 工具类产品没意义
L 级之间存在过渡形态：例如 ChatGPT 既能对话（L1）也能推理（L2）——分级时按”主要使用场景”打标签
企业级 Agent 多为 L2+L3 混合：实际工程化中诊断 Agent 既要推理也要工具调用，按 L3 评测但兼顾 L2 推理质量
L4/L5 暂不实用：AGI 雏形和组织级 AI 在当前竞品分析场景几乎不会遇到，遇到了再扩展

不同素材中的观点

2026-05-20-ai-pm-competitive-analysis：浩子AIPM 在第二周用六层架构对比 4 家通用大模型厂商失败（4 层雷同度 90%+），第三周换成四层架构 + Steps to AGI 分级后才打开思路。作者称这是”整个 4 周最大的认知收益”，并把 5 分钟 L 级分类作为 AI 竞品分析的标准 SOP 第一步。作者强调：不在同一级的直接剔除——它们不是真正的竞品，是不同物种。

实用信息

快速判定 L 级的判断准则

看什么	L1 对话级	L2 推理级	L3 任务级
用户输入是什么？	一句话问 / 闲聊	复杂问题 / 多步问答	任务描述（“帮我做 X”）
AI 输出是什么？	一段回复	推理过程 + 答案	任务执行结果 + 中间步骤
是否调用工具？	通常不调用	偶尔调用搜索	必须调用多个工具
是否能自我修正？	不需要	推理失误可重新推理	必须能识别失败并重试
评测重点	流畅度 + 准确度	逻辑链 + 推理深度	任务完成度 + 工具调用

与其他分级体系的对比

分级体系	来源	粒度	适用场景
Steps to AGI（L1/L2/L3）	浩子AIPM 收敛版（基于 OpenAI 五级思路）	三级	PM 竞品分析、模型选型
OpenAI Steps to AGI 五级	OpenAI 官方路线图（Chatbot/Reasoner/Agent/Innovator/Organization）	五级	长期战略规划
Agent 自主等级（人类掌控 → 完全自主）	学术界	多级连续	Agent 安全研究

常见误用

把所有 AI 产品强行打 L3 标签：不是只要叫”Agent”就是 L3，关键看是否真的能自主规划+工具调用+自我修正
L1/L2/L3 的边界模糊就放弃使用：模糊就按主要使用场景打标签，分级法的核心价值是粗筛而非精确分类
用 L 级当产品营销标签：L 级是评测工具不是营销话术，用户不关心你是 L 几，关心你能不能解决问题
跳过 L 级直接做评测：评测集没有匹配 L 级的评测重点，跑出来的结果不能支持决策

个人知识库

探索

Steps to AGI 分级

Steps to AGI 分级

简介

关键信息

核心特性

三级定义与评测重点

5 分钟竞品分级 SOP

不同 L 级的评测策略差异

L1 对话级评测策略

L2 推理级评测策略

L3 任务级评测策略

与 PM 工作场景的关联

局限性与适用边界

不同素材中的观点

实用信息

快速判定 L 级的判断准则

与其他分级体系的对比

常见误用

相关页面

关系图谱

快速导航

目录

反向链接