90% 的 AI产品经理都在做错竞品分析(包括 4 周前的我)
浩子AIPM 通过 4 周连续做 AI 竞品分析的踩坑复盘,揭示传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)在 AI 产品上集体失灵,提出三个新框架:内容生成质量评测表、四层架构 + Steps to AGI 分级、自建场景化评测集,以及一张人 × AI 协作分工表和判断套话的”三秒规则”。
基本信息
- 来源类型:网页文章(人人都是产品经理)
- 原文位置:
raw/articles/2026-05-20-woshipm-ai-pm-competitive-analysis-3-frameworks.md - 原文 URL:https://www.woshipm.com/share/6394521.html
- 作者:浩子AIPM
- 发布日期:2026-05-20
- 原文字数:3541 字
- 消化日期:2026-05-24
核心观点
-
传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)在 AI 产品身上集体失效:AI 产品的核心差异不在功能多少,而在「内容生成质量」——所有传统竞品分析框架都不能量化这一点。作者交了一份用 SWOT + 六层架构 + 功能矩阵打勾打叉的”漂亮报告”,被评审反问”你这份报告跟分析两个 SaaS 软件有什么区别?“——这是认知崩塌的起点。
-
功能矩阵图升级为「内容生成质量评测表」,必须配 30 题评测集 + 5 个量化维度:传统功能矩阵打勾打叉的结果是”4 个产品大同小异,看不出谁更适合接入”。作者把 4 款头部 AI 产品的 Deep Research 功能改用 5 个量化指标评测,并构建覆盖新闻时效、金融分析、行业研究、学术综述的 30 题评测集,跑完之后决策依据立刻清晰——“这家产品的稳定性和幻觉率明显优于其他三家”。没有「评测集 + 打分」的竞品报告本质上只是信息搬运。
-
六层架构在套壳时代失去信息量,必须换成「四层架构 + Steps to AGI 分级」:4 家通用大模型厂商的六层架构对比”写了等于没写”——商业层、用户层、技术层、模型层 4 层雷同度 90%+,剩下市场层和基础层差异也小到看不出决策价值。原因:大部分 AI 产品本质是”同一批底层模型 + 向量数据库 + Agent 框架”的不同套壳。新框架去掉冗余层用四层架构,把市场层和商业层独立为「立项判断」前置环节。
-
Steps to AGI 三级分类法是 4 周最大的认知收益:AI 产品分 L1(对话级,评测重点对话质量——理解力 / 上下文记忆 / 回应自然度)、L2(推理级,评测重点推理深度——逻辑链 / Long CoT / 知识应用)、L3(任务级,评测重点任务完成度——目标对齐 / 工具调用 / 自我修正)。不同 L 级评测重点完全不同——用 L1 标准测 L3 Agent 约等于用打字速度评测程序员。SOP:先用 5 分钟把所有候选竞品按 L1/L2/L3 分类,不在同一级的直接剔除(不是真正竞品,是不同物种)。
-
公开 Benchmark 不等于业务效果,必须自建场景化评测集:作者第一周用 MMLU/GSM8K/HumanEval/HellaSwag 综合得分推荐”最高的那家”,被反问”你在自己的业务场景里试过吗?“。POC 阶段结果完全反转——公开榜单分数最高的模型在业务场景下表现反而不如分数靠后的模型。原因:MMLU 高分意味着多任务学习数据集表现好,不代表它给客户写邮件、做行业推荐、审合同时一样靠谱。自建评测集三原则——优先采 Bad Case(从真实业务日志捞翻车记录,AI 生成的样本只作补充)、场景化拆维度(推理类看逻辑链 / 生成类看流畅度 / 问答类看准确率)、人工筛选不可省(AI 生成的题目大概率有偏差)。
-
模型选型不能只看分数,要看四维度平衡:“最强的模型不等于最适合的模型”——一款公开榜单顶级的模型,如果业务场景是高并发、低成本的客服或推荐,选一个综合得分稍低但单价更便宜、时延更短的模型反而更合理。业务越细分,“最强”越不重要,“匹配”越重要。作者现在的 SOP 是:公开榜单只用来”剔除明显不及格”的模型,最终决策 100% 看自建评测集。
-
人 × AI 协作分工:「AI 做苦力,我做判断」,但很多 PM 把判断也外包给 AI:作者从”自己做完所有竞品分析”转变成”让 AI 做苦力,我做判断”。最大的坑是:很多 PM 把判断也外包给 AI——AI 给什么结论用什么结论,一上评审就被反问出三个”为什么”。
-
判断 AI 输出能不能直接用的「三秒规则」:「如果 AI 给你的结论里,没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。」真正有用的竞品分析最终一定会出现”这一点和我的常识相反”的瞬间。如果通篇看下来都是”嗯,对,是这样”,意味着 AI 给的是平均值意见——而平均值不能成为决策依据。
-
AI 竞品分析的本质变了:从”功能视角”到”质量视角”:老竞品分析回答”我做什么 vs 别人做什么”,AI 竞品分析回答”我能定义什么样的内容质量标准,让自己的评测集成为护城河”。第一种比的是清单,第二种比的是判断力。AI PM 和传统 PM 最大的差异不再是”会不会用 AI 工具”,而是”会不会做 AI 评测”——这是目前 AI PM 求职市场上区分度最高的硬技能之一。
实操内容保留
本节保留原文的实操工具、SOP 步骤和判断准则。
「内容生成质量评测表」5 个量化维度(替代功能矩阵)
针对 Deep Research 类 AI 产品功能对比:
| 量化维度 | 说明 |
|---|---|
| 内容质量 | 输出的核心信息含金量、结构清晰度 |
| 内容丰富度 | 引用来源数量、信息覆盖完整性 |
| 幻觉率 | 编造不存在的事实、错引来源的频率 |
| 稳定性 | 同一类问题反复跑结果的一致程度 |
| 时延 | 从提问到完整输出的耗时 |
配套:构建 30 题评测集,覆盖新闻时效、金融分析、行业研究、学术综述 4 种典型场景,跑完之后才出对比结论。
Steps to AGI 三级分级 SOP
L1(对话级):以对话为核心
→ 评测重点:对话质量
→ 关键指标:理解力 / 上下文记忆 / 回应自然度
L2(推理级):能完成多步推理
→ 评测重点:推理深度
→ 关键指标:逻辑链 / Long CoT 表现 / 知识应用
L3(任务级):自主规划并执行任务
→ 评测重点:任务完成度
→ 关键指标:目标对齐 / 工具调用 / 自我修正
5 分钟竞品分级 SOP:
- 把所有候选竞品按 L1/L2/L3 分类
- 不在同一级的直接剔除(不是真正的竞品,是不同物种)
- 同级竞品再按对应评测重点深入对比
自建评测集三原则
- 优先采 Bad Case:从真实业务日志里捞翻车记录,AI 生成的样本只能作为补充
- 场景化拆维度:不同任务定义不同评分卡(推理类看逻辑链,生成类看流畅度,问答类看准确率)
- 人工筛选不可省:评测集最终一定要人工过一遍,AI 生成的题目大概率有偏差
模型选型四维度平衡
不能只看分数,要看四个维度的平衡:
- 公开榜单分数:只用来”剔除明显不及格”的模型
- 业务场景匹配度:自建场景化评测集的结果(最终决策权重 100%)
- 单价/成本:高并发场景下单价比顶级智能更重要
- 时延:客服 / 推荐等高并发场景对响应速度敏感
核心心法:业务越细分,“最强”越不重要,“匹配”越重要。
4 周血泪表(老 vs 新 三件套)
| 维度 | 老工具(失效) | 新工具(替代) |
|---|---|---|
| 功能对比 | 功能矩阵图(✅❌) | 内容生成质量评测表(5 维度 + 30 题评测集) |
| 架构拆解 | 六层架构 | 四层架构 + Steps to AGI 分级(L1/L2/L3) |
| 模型选型 | 公开 Benchmark(MMLU/GSM8K…) | 自建场景化评测集(Bad Case + 场景维度 + 人工筛选) |
每次接到新的 AI 竞品分析任务,先对照一遍这张表,确认自己用的是右边那列。
「三秒规则」判断 AI 输出是否套话
如果 AI 给你的结论里,没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。
判断准则:
- 真正有用的竞品分析最终一定会出现「这一点和我的常识相反」的瞬间
- 如果通篇都是「嗯,对,是这样」→ AI 给的是平均值意见
- 平均值不能成为决策依据
给 AI PM 的 3 条 4 周心得建议
- 第一周别急着写报告,先花 3 天构建你的评测集——评测集的设计深度直接决定后面分析的天花板
- 不要相信公开榜单,自建场景化评测集是 AI PM 的基本功
- 不要外包判断,AI 是肌肉,判断是大脑
关键概念
- AI竞品分析 — 本文构建的方法论实体(4 周血泪 / 三件套替代 / 三秒规则)
- Steps to AGI 分级 — 本文提出的 L1/L2/L3 三级分类法(对话级 / 推理级 / 任务级)
- AI评估计分板 — 本文的自建评测集与 PM 主导的 Golden Set 四阶生命周期同源;Bad Case 优先原则对应红线池 + 活水池
- 人机协同 — “AI 做苦力,我做判断”在 PM 工作场景的应用;“三秒规则”是 PM 视角的人机分工判断准则
- AI产品经理工作流 — 本文补充了 PM 竞品分析场景的方法论,与已有的”信息收集可外包,洞察必须自己来”形成具体路径
- 思维链 CoT — Steps to AGI L2 “推理级”对应 Long CoT 表现的评测重点
- AI Agent 智能体 — Steps to AGI L3 “任务级”对应自主规划+工具调用+自我修正的 Agent 能力
- 提示词工程 — 评测集中”改变 Prompt 表达方式(肯定句→双重否定句)测鲁棒性”与提示词工程的稳定性测试同源
与其他素材的关联
-
与 2026-05-11-ai-evaluation-scoreboard 的关系:互为镜像 + 互补。AI新知社那篇从企业级 SaaS 视角讲 R-U-B 三维漏斗 + Golden Set 四阶 + LLM-as-a-Judge,本文从 PM 个人 4 周血泪视角讲三件套替代 + Steps to AGI 分级 + 三秒规则。两篇共同确立”PM 自建评测集是 AI 时代核心护城河”的命题,但视角不同——AI新知社讲”评估体系怎么搭建”,本文讲”为什么传统竞品分析框架会失效 + 该用什么替代”。
-
与 2026-05-09-pm-ai-playbook 的关系:具体落地版。那篇提出”信息收集可外包,洞察必须自己来”的人机协作原则,本文给出该原则在竞品分析场景的具体翻车案例(外包判断给 AI → 评审反问三个”为什么”)和判断准则(三秒规则)。
-
与 2026-05-09-product-to-startup-blues 的关系:判断力护城河的进一步具体化。那篇提出”判断力是 AI 时代真正的护城河”,本文进一步指出”AI PM 和传统 PM 最大的差异不再是会不会用 AI 工具,而是会不会做 AI 评测”——把”判断力”具体化为”评测能力”。
-
与 2026-05-23-woshipm-user-research-5-truths 的关系:评估认知同源。两篇都强调”不能用公开 / 便利的标准去评估真实业务”——用户调研那篇说便利样本(同事 / 亲友 / 路人)等于公开评测集,本文说公开 Benchmark(MMLU/GSM8K)等于公开评测集,真正的护城河都是含业务噪音的脏数据。
-
与 2026-05-23-woshipm-sop-as-cot-agent-clone-expert 的关系:Steps to AGI L3 任务级的具体形态。忘机那篇 G7 易流 IoT Agent 案例就是 L3 任务级 Agent(自主规划诊断流程 + 工具调用 + 自我修正),本文的 Steps to AGI 分级为这类企业 Agent 提供了评测重点——任务完成度(目标对齐 / 工具调用 / 自我修正)。
原文精彩摘录
“评审时被反问的第一句话是:你这份报告跟分析两个 SaaS 软件有什么区别? 那一刻我才反应过来:我用错了工具。AI 产品和传统软件的核心差异,根本不在功能多少,而在内容生成质量——而我手里所有的传统竞品分析框架,恰恰都不能量化这一点。”
“继续用六层对比,等于在比较「都用了同一款发动机的五辆车谁更强」——结果只能是没有结果。”
“**不同 L 级的产品,评测重点完全不同。**用 L1 的评测标准去测 L3 的 Agent 产品,约等于用「打字速度」评测一个程序员——驴唇不对马嘴。”
“公开榜单分数最高的模型,在我们的业务场景下表现反而不如一款分数靠后的模型。原因很简单:榜单测的是通用能力,而真实业务场景往往是公开榜单根本不覆盖的细分领域。”
“**如果 AI 给你的结论里,没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。**真正有用的竞品分析,最终一定会出现「这一点和我的常识相反」的瞬间。如果通篇看下来都是「嗯,对,是这样」,意味着 AI 给的是平均值意见——而平均值不能成为决策依据。”
“老竞品分析的本质是回答「我做什么 vs 别人做什么」,而 AI 竞品分析的本质是回答「我能定义什么样的内容质量标准,让自己的评测集成为护城河」。第一种是功能视角,第二种是质量视角。第一种比的是清单,第二种比的是判断力。也正因为这个转变,AI PM 和传统 PM 最大的差异不再是「会不会用 AI 工具」,而是「会不会做 AI 评测」——这件事很多 PM 都还没意识到,也是我观察到的、目前 AI PM 求职市场上区分度最高的硬技能之一。“