AI竞品分析

AI 产品时代的竞品分析方法论:传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)在 AI 产品上集体失效,必须升级为「内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工」组合方法。

简介

AI 竞品分析(AI Competitive Analysis)是产品经理在 AI 原生产品时代必须重建的核心方法论。它的核心命题是:老竞品分析回答”我做什么 vs 别人做什么”(功能视角),AI 竞品分析回答”我能定义什么样的内容质量标准,让自己的评测集成为护城河”(质量视角)。第一种比的是清单,第二种比的是判断力。

之所以方法论必须重建,是因为 AI 产品和传统软件的核心差异不在功能多少,而在「内容生成质量」——而传统 PM 三件套(SWOT / 功能矩阵 / 六层架构)都不能量化这一点:

  • 功能矩阵图:统计的是”有没有这个功能”,但 AI 产品的差异在”同一个功能,谁做得更好”——好不好是内容生成质量问题,不能用 ✅❌ 表达
  • 六层架构:为”成熟软件赛道”设计,假设每层都有显著差异。但大部分 AI 产品本质是”同一批底层模型 + 向量数据库 + Agent 框架”的不同套壳,4 层(商业层 / 用户层 / 技术层 / 模型层)雷同度 90%+
  • SWOT:在功能高度趋同时退化为模板化的文字游戏

浩子AIPM 在 4 周 AI 竞品分析任务踩坑后,重建出一套替代方法论:内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则。这套方法论的本质是把竞品分析从”信息搬运”升级为”判断力 + 评测集 + 分级 + 协作”的体系。

关键信息

  • 类型:方法论(概念类实体)
  • 领域:AI 产品管理 / 产品分析 / 模型评估
  • 核心命题:从”功能视角”升级为”质量视角”
  • 核心组成:内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则
  • 适用产品类型:AI 原生产品(含通用大模型 / Agent / Deep Research / 内容生成等)
  • 相关概念AI评估计分板(评测体系底座)、Steps to AGI 分级(分级分类法)、人机协同(协作分工)、产品分析(交易类产品分析方法论对照)、AI产品经理工作流(PM 工作场景之一)

核心特性

一、4 周血泪表:老 vs 新三件套

维度老工具(失效)新工具(替代)失效原因
功能对比功能矩阵图(✅❌)内容生成质量评测表(5 维度 + 30 题评测集)AI 产品差异不在”有没有”而在”做得好不好”,✅❌ 表达不了质量
架构拆解六层架构四层架构 + Steps to AGI 分级套壳时代 4 层雷同度 90%+,写了等于没写
模型选型公开 Benchmark(MMLU/GSM8K…)自建场景化评测集(Bad Case + 场景维度 + 人工筛选)公开榜单测通用能力,与业务场景表现经常完全无关

核心心法:每次接到新的 AI 竞品分析任务,先对照一遍这张表,确认自己用的是右边那列。

二、内容生成质量评测表(替代功能矩阵)

针对 Deep Research / 内容生成类 AI 产品功能对比,必须用 5 个量化维度 + 评测集:

量化维度说明
内容质量输出的核心信息含金量、结构清晰度
内容丰富度引用来源数量、信息覆盖完整性
幻觉率编造不存在的事实、错引来源的频率
稳定性同一类问题反复跑结果的一致程度
时延从提问到完整输出的耗时

配套评测集:30 题覆盖 新闻时效、金融分析、行业研究、学术综述 4 种典型场景,跑完才出对比结论。

核心心法没有「评测集 + 打分」的竞品报告本质上只是信息搬运,不能给决策者任何支撑。

三、四层架构 + Steps to AGI 分级(替代六层架构)

四层架构:去掉六层中的冗余层(用户层 / 商业层 / 市场层 / 基础层),把市场层和商业层独立为「立项判断」前置环节,而不是塞进竞品架构里。

Steps to AGI 分级:先定位竞品阶段,再决定怎么测——

等级定义评测重点关键指标
L1 对话级以对话为核心对话质量理解力 / 上下文记忆 / 回应自然度
L2 推理级能完成多步推理推理深度逻辑链 / Long CoT 表现 / 知识应用
L3 任务级自主规划并执行任务任务完成度目标对齐 / 工具调用 / 自我修正

核心心法不同 L 级的产品,评测重点完全不同——用 L1 标准测 L3 Agent 约等于用打字速度评测程序员。

SOP:先用 5 分钟把所有候选竞品按 L1/L2/L3 分类,不在同一级的直接剔除(不是真正的竞品,是不同物种)。

四、自建场景化评测集(替代公开 Benchmark)

核心命题:公开 Benchmark 解决”模型在通用能力上的相对位置”,AI 产品要解决”模型在你的业务场景里好不好用”——这两件事经常完全无关

自建评测集三原则

  1. 优先采 Bad Case:从真实业务日志里捞翻车记录,AI 生成的样本只能作为补充
  2. 场景化拆维度:不同任务定义不同评分卡(推理类看逻辑链 / 生成类看流畅度 / 问答类看准确率)
  3. 人工筛选不可省:评测集最终一定要人工过一遍,AI 生成的题目大概率有偏差

模型选型四维度平衡:不能只看分数——公开榜单分数 + 业务场景匹配度 + 单价/成本 + 时延 综合平衡。业务越细分,“最强”越不重要,“匹配”越重要

作者实际 SOP:公开榜单只用来”剔除明显不及格”的模型,最终决策 100% 看自建评测集。

五、人 × AI 协作分工

转变模式:从”自己做完所有竞品分析”转变成”让 AI 做苦力,我做判断”

最大的坑是:很多 PM 把判断也外包给 AI——AI 给什么结论用什么结论,一上评审就被反问出三个”为什么”。

分工AI 适合人必须做
信息收集✅ 抓取竞品资料、整理功能清单
评测集设计辅助生成题目✅ 定义场景维度、人工筛选偏差
评测打分✅ 跑评测、初步打分抽样校验
结论形成提供候选结论✅ 判断哪些是套话哪些是真洞察
决策建议✅ 100% 由人做最终判断

六、“三秒规则”——判断 AI 输出是否套话

如果 AI 给你的结论里,没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。

判断准则

  • 真正有用的竞品分析最终一定会出现「这一点和我的常识相反」的瞬间
  • 如果通篇都是「嗯,对,是这样」→ AI 给的是平均值意见
  • 平均值不能成为决策依据

七、AI 竞品分析的本质:从功能视角到质量视角

维度老竞品分析(传统软件)AI 竞品分析(AI 产品)
核心问题我做什么 vs 别人做什么我能定义什么样的内容质量标准
视角功能视角质量视角
比的是清单判断力
护城河功能差异化自建评测集

对 AI PM 的关键启示:AI PM 和传统 PM 最大的差异不再是”会不会用 AI 工具”,而是”会不会做 AI 评测”——这是目前 AI PM 求职市场上区分度最高的硬技能之一。

不同素材中的观点

  • 2026-05-20-ai-pm-competitive-analysis:浩子AIPM 通过 4 周连续做 AI 竞品分析的踩坑复盘,完整呈现传统 PM 三件套失效的认知崩塌过程,并重建出”内容生成质量评测表 + 四层架构 + Steps to AGI 分级 + 自建场景化评测集 + 人 × AI 协作分工 + 三秒规则”组合方法论。核心论点:AI 竞品分析的本质是从”功能视角”升级为”质量视角”——比的不是清单而是判断力,自建评测集是 AI PM 的护城河。配套给出 3 条 4 周心得建议:第一周别急着写报告先花 3 天构建评测集 / 不要相信公开榜单 / 不要外包判断(AI 是肌肉,判断是大脑)。

实用信息

快速上手 SOP(接到 AI 竞品分析任务的标准动作)

  1. 第一步:对照「4 周血泪表」——确认自己用的是新工具不是老工具(功能矩阵 ❌ / 六层架构 ❌ / 公开 Benchmark ❌)
  2. 第二步:5 分钟 L 级分类——把所有候选竞品按 Steps to AGI 分级 L1/L2/L3 分类,不在同一级的直接剔除
  3. 第三步:花 3 天构建评测集(不是着急写报告)——按业务场景出 30 题左右,遵循 Bad Case 优先 + 场景化拆维度 + 人工筛选三原则
  4. 第四步:跑评测打分——按 5 量化维度(内容质量 / 丰富度 / 幻觉率 / 稳定性 / 时延)出对比结果
  5. 第五步:用「三秒规则」审 AI 结论——通篇都是”嗯,对”就是套话,必须出现”和我常识相反”的瞬间
  6. 第六步:模型选型四维度平衡——公开榜单只剔除不及格,业务场景匹配度 + 单价 + 时延综合判断

常见误区与避坑指南

  1. 误区一:把 SWOT / 功能矩阵 / 六层架构直接套用 AI 产品 → 评审第一句就被反问”你这份报告跟分析两个 SaaS 软件有什么区别?”
  2. 误区二:相信公开 Benchmark 分数 → POC 阶段结果完全反转,公开榜单分数最高的模型在业务场景下表现最差
  3. 误区三:把不同 L 级的产品强行对比 → 用 L1 标准测 L3 Agent = 用打字速度评测程序员
  4. 误区四:评测集只有标准正向数据 → 与 AI评估计分板 的 Golden Set 同理——脏数据占比不够则评估永远是温室高分
  5. 误区五:让 AI 做完所有事包括判断 → AI 给的是平均值意见,平均值不能成为决策依据
  6. 误区六:评测集让 AI 生成完就直接用 → AI 生成的题目大概率有偏差,人工筛选不可省

与已有方法论的关系

方法论关系
AI评估计分板互为镜像——评估计分板从企业级 SaaS 视角讲 R-U-B 三维漏斗 + Golden Set 四阶生命周期 + LLM-as-a-Judge;本方法论从 PM 个人视角讲三件套替代 + Steps to AGI 分级 + 三秒规则。两者共同确立”自建评测集是 AI 时代护城河”的命题
Steps to AGI 分级AI 竞品分析的分级分类法子模块
人机协同本方法论的”AI 做苦力,我做判断”是人机协同在 PM 工作场景的具体落点
产品分析互补——产品分析处理交易类产品(电商/O2O)的四维分析框架(功能分类 / 流量走势 / 交易漏斗 / 关联行为),本方法论处理 AI 原生产品的竞品评估
AI产品经理工作流主题归属——本方法论补全了”竞品分析”这一 PM 核心场景的 AI 时代落地路径

给 AI PM 的 3 条心得(作者原话)

  1. 第一周别急着写报告,先花 3 天构建你的评测集——评测集的设计深度直接决定后面分析的天花板
  2. 不要相信公开榜单,自建场景化评测集是 AI PM 的基本功
  3. 不要外包判断,AI 是肌肉,判断是大脑

相关页面