AI竞品分析
AI 产品时代的竞品分析方法论:传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)在 AI 产品上集体失效,必须升级为「内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工」组合方法。
简介
AI 竞品分析(AI Competitive Analysis)是产品经理在 AI 原生产品时代必须重建的核心方法论。它的核心命题是:老竞品分析回答”我做什么 vs 别人做什么”(功能视角),AI 竞品分析回答”我能定义什么样的内容质量标准,让自己的评测集成为护城河”(质量视角)。第一种比的是清单,第二种比的是判断力。
之所以方法论必须重建,是因为 AI 产品和传统软件的核心差异不在功能多少,而在「内容生成质量」——而传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)都不能量化这一点:
- 功能矩阵图:统计的是”有没有这个功能”,但 AI 产品的差异在”同一个功能,谁做得更好”——好不好是内容生成质量问题,不能用 ✅❌ 表达
- 六层架构:为”成熟软件赛道”设计,假设每层都有显著差异。但大部分 AI 产品本质是”同一批底层模型 + 向量数据库 + Agent 框架”的不同套壳,4 层(商业层 / 用户层 / 技术层 / 模型层)雷同度 90%+
- SWOT:在功能高度趋同时退化为模板化的文字游戏
浩子AIPM 在 4 周 AI 竞品分析任务踩坑后,重建出一套替代方法论:内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则。这套方法论的本质是把竞品分析从”信息搬运”升级为”判断力 + 评测集 + 分级 + 协作”的体系。
关键信息
- 类型:方法论(概念类实体)
- 领域:AI 产品管理 / 产品分析 / 模型评估
- 核心命题:从”功能视角”升级为”质量视角”
- 核心组成:内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则
- 适用产品类型:AI 原生产品(含通用大模型 / Agent / Deep Research / 内容生成等)
- 相关概念:AI评估计分板(评测体系底座)、Steps to AGI 分级(分级分类法)、人机协同(协作分工)、产品分析(交易类产品分析方法论对照)、AI产品经理工作流(PM 工作场景之一)
核心特性
一、4 周血泪表:老 vs 新三件套
| 维度 | 老工具(失效) | 新工具(替代) | 失效原因 |
|---|---|---|---|
| 功能对比 | 功能矩阵图(✅❌) | 内容生成质量评测表(5 维度 + 30 题评测集) | AI 产品差异不在”有没有”而在”做得好不好”,✅❌ 表达不了质量 |
| 架构拆解 | 六层架构 | 四层架构 + Steps to AGI 分级 | 套壳时代 4 层雷同度 90%+,写了等于没写 |
| 模型选型 | 公开 Benchmark(MMLU/GSM8K…) | 自建场景化评测集(Bad Case + 场景维度 + 人工筛选) | 公开榜单测通用能力,与业务场景表现经常完全无关 |
核心心法:每次接到新的 AI 竞品分析任务,先对照一遍这张表,确认自己用的是右边那列。
二、内容生成质量评测表(替代功能矩阵)
针对 Deep Research / 内容生成类 AI 产品功能对比,必须用 5 个量化维度 + 评测集:
| 量化维度 | 说明 |
|---|---|
| 内容质量 | 输出的核心信息含金量、结构清晰度 |
| 内容丰富度 | 引用来源数量、信息覆盖完整性 |
| 幻觉率 | 编造不存在的事实、错引来源的频率 |
| 稳定性 | 同一类问题反复跑结果的一致程度 |
| 时延 | 从提问到完整输出的耗时 |
配套评测集:30 题覆盖 新闻时效、金融分析、行业研究、学术综述 4 种典型场景,跑完才出对比结论。
核心心法:没有「评测集 + 打分」的竞品报告本质上只是信息搬运,不能给决策者任何支撑。
三、四层架构 + Steps to AGI 分级(替代六层架构)
四层架构:去掉六层中的冗余层(用户层 / 商业层 / 市场层 / 基础层),把市场层和商业层独立为「立项判断」前置环节,而不是塞进竞品架构里。
Steps to AGI 分级:先定位竞品阶段,再决定怎么测——
| 等级 | 定义 | 评测重点 | 关键指标 |
|---|---|---|---|
| L1 对话级 | 以对话为核心 | 对话质量 | 理解力 / 上下文记忆 / 回应自然度 |
| L2 推理级 | 能完成多步推理 | 推理深度 | 逻辑链 / Long CoT 表现 / 知识应用 |
| L3 任务级 | 自主规划并执行任务 | 任务完成度 | 目标对齐 / 工具调用 / 自我修正 |
核心心法:不同 L 级的产品,评测重点完全不同——用 L1 标准测 L3 Agent 约等于用打字速度评测程序员。
SOP:先用 5 分钟把所有候选竞品按 L1/L2/L3 分类,不在同一级的直接剔除(不是真正的竞品,是不同物种)。
四、自建场景化评测集(替代公开 Benchmark)
核心命题:公开 Benchmark 解决”模型在通用能力上的相对位置”,AI 产品要解决”模型在你的业务场景里好不好用”——这两件事经常完全无关。
自建评测集三原则:
- 优先采 Bad Case:从真实业务日志里捞翻车记录,AI 生成的样本只能作为补充
- 场景化拆维度:不同任务定义不同评分卡(推理类看逻辑链 / 生成类看流畅度 / 问答类看准确率)
- 人工筛选不可省:评测集最终一定要人工过一遍,AI 生成的题目大概率有偏差
模型选型四维度平衡:不能只看分数——公开榜单分数 + 业务场景匹配度 + 单价/成本 + 时延 综合平衡。业务越细分,“最强”越不重要,“匹配”越重要。
作者实际 SOP:公开榜单只用来”剔除明显不及格”的模型,最终决策 100% 看自建评测集。
五、人 × AI 协作分工
转变模式:从”自己做完所有竞品分析”转变成”让 AI 做苦力,我做判断”。
最大的坑是:很多 PM 把判断也外包给 AI——AI 给什么结论用什么结论,一上评审就被反问出三个”为什么”。
| 分工 | AI 适合 | 人必须做 |
|---|---|---|
| 信息收集 | ✅ 抓取竞品资料、整理功能清单 | — |
| 评测集设计 | 辅助生成题目 | ✅ 定义场景维度、人工筛选偏差 |
| 评测打分 | ✅ 跑评测、初步打分 | 抽样校验 |
| 结论形成 | 提供候选结论 | ✅ 判断哪些是套话哪些是真洞察 |
| 决策建议 | — | ✅ 100% 由人做最终判断 |
六、“三秒规则”——判断 AI 输出是否套话
如果 AI 给你的结论里,没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。
判断准则:
- 真正有用的竞品分析最终一定会出现「这一点和我的常识相反」的瞬间
- 如果通篇都是「嗯,对,是这样」→ AI 给的是平均值意见
- 平均值不能成为决策依据
七、AI 竞品分析的本质:从功能视角到质量视角
| 维度 | 老竞品分析(传统软件) | AI 竞品分析(AI 产品) |
|---|---|---|
| 核心问题 | 我做什么 vs 别人做什么 | 我能定义什么样的内容质量标准 |
| 视角 | 功能视角 | 质量视角 |
| 比的是 | 清单 | 判断力 |
| 护城河 | 功能差异化 | 自建评测集 |
对 AI PM 的关键启示:AI PM 和传统 PM 最大的差异不再是”会不会用 AI 工具”,而是”会不会做 AI 评测”——这是目前 AI PM 求职市场上区分度最高的硬技能之一。
不同素材中的观点
- 2026-05-20-ai-pm-competitive-analysis:浩子AIPM 通过 4 周连续做 AI 竞品分析的踩坑复盘,完整呈现传统 PM 三件套失效的认知崩塌过程,并重建出”内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则”组合方法论。核心论点:AI 竞品分析的本质是从”功能视角”升级为”质量视角”——比的不是清单而是判断力,自建评测集是 AI PM 的护城河。配套给出 3 条 4 周心得建议:第一周别急着写报告先花 3 天构建评测集 / 不要相信公开榜单 / 不要外包判断(AI 是肌肉,判断是大脑)。
实用信息
快速上手 SOP(接到 AI 竞品分析任务的标准动作)
- 第一步:对照「4 周血泪表」——确认自己用的是新工具不是老工具(功能矩阵 ❌ / 六层架构 ❌ / 公开 Benchmark ❌)
- 第二步:5 分钟 L 级分类——把所有候选竞品按 Steps to AGI 分级 L1/L2/L3 分类,不在同一级的直接剔除
- 第三步:花 3 天构建评测集(不是着急写报告)——按业务场景出 30 题左右,遵循 Bad Case 优先 + 场景化拆维度 + 人工筛选三原则
- 第四步:跑评测打分——按 5 量化维度(内容质量 / 丰富度 / 幻觉率 / 稳定性 / 时延)出对比结果
- 第五步:用「三秒规则」审 AI 结论——通篇都是”嗯,对”就是套话,必须出现”和我常识相反”的瞬间
- 第六步:模型选型四维度平衡——公开榜单只剔除不及格,业务场景匹配度 + 单价 + 时延综合判断
常见误区与避坑指南
- 误区一:把 SWOT / 功能矩阵 / 六层架构直接套用 AI 产品 → 评审第一句就被反问”你这份报告跟分析两个 SaaS 软件有什么区别?”
- 误区二:相信公开 Benchmark 分数 → POC 阶段结果完全反转,公开榜单分数最高的模型在业务场景下表现最差
- 误区三:把不同 L 级的产品强行对比 → 用 L1 标准测 L3 Agent = 用打字速度评测程序员
- 误区四:评测集只有标准正向数据 → 与 AI评估计分板 的 Golden Set 同理——脏数据占比不够则评估永远是温室高分
- 误区五:让 AI 做完所有事包括判断 → AI 给的是平均值意见,平均值不能成为决策依据
- 误区六:评测集让 AI 生成完就直接用 → AI 生成的题目大概率有偏差,人工筛选不可省
与已有方法论的关系
| 方法论 | 关系 |
|---|---|
| AI评估计分板 | 互为镜像——评估计分板从企业级 SaaS 视角讲 R-U-B 三维漏斗 + Golden Set 四阶生命周期 + LLM-as-a-Judge;本方法论从 PM 个人视角讲三件套替代 + Steps to AGI 分级 + 三秒规则。两者共同确立”自建评测集是 AI 时代护城河”的命题 |
| Steps to AGI 分级 | AI 竞品分析的分级分类法子模块 |
| 人机协同 | 本方法论的”AI 做苦力,我做判断”是人机协同在 PM 工作场景的具体落点 |
| 产品分析 | 互补——产品分析处理交易类产品(电商/O2O)的四维分析框架(功能分类 / 流量走势 / 交易漏斗 / 关联行为),本方法论处理 AI 原生产品的竞品评估 |
| AI产品经理工作流 | 主题归属——本方法论补全了”竞品分析”这一 PM 核心场景的 AI 时代落地路径 |
给 AI PM 的 3 条心得(作者原话)
- 第一周别急着写报告,先花 3 天构建你的评测集——评测集的设计深度直接决定后面分析的天花板
- 不要相信公开榜单,自建场景化评测集是 AI PM 的基本功
- 不要外包判断,AI 是肌肉,判断是大脑