90% 的 AI产品经理都在做错竞品分析（包括 4 周前的我）

连续做了 4 周 AI 竞品分析后发现反直觉的事实：传统竞品分析三件套（SWOT、功能矩阵、六层架构）在 AI 产品身上几乎全部失效。本文给出 AI 时代竞品分析的 3 个新框架、1 张人 × AI 协作分工表，以及避免被反问倒的关键判断法则。

基本信息

来源：人人都是产品经理
作者：浩子AIPM
发布日期：2026-05-20
字数：3541 字

核心观点

传统 PM 三件套在 AI 产品身上集体失效：AI 产品和传统软件的核心差异根本不在功能多少，而在内容生成质量——而传统竞品分析框架（SWOT、功能矩阵、六层架构）恰恰都不能量化这一点。功能矩阵图统计”有没有”但 AI 产品差异在”做得好不好”；六层架构在套壳时代失去信息量（4 层雷同度 90%+）。
功能矩阵图必须升级为内容生成质量评测表：对比 4 款 Deep Research 功能时，打勾打叉的结果是”四个产品大同小异”看不出谁更适合接入。新方法是构建 30 题评测集（覆盖新闻时效、金融分析、行业研究、学术综述四种典型场景），用 5 个量化维度（完整性、准确性、来源可信度、结构化程度、稳定性/幻觉率）打分，才能得出”稳定性和幻觉率明显优于其他三家”的决策依据。
六层架构必须替换为四层架构 + Steps to AGI 分级：今天大部分 AI 产品本质是”同一批底层模型 + 同一批向量数据库 + 同一类 Agent 框架”的不同套壳，技术层和模型层趋同到 90% 以上。继续用六层对比等于在比”都用同款发动机的五辆车谁更强”。新方法：把市场层和商业层独立作为立项判断前置环节，架构拆解只保留四层；同时先用 Steps to AGI 分级（L1 对话级 / L2 推理级 / L3 任务级）做粗筛——不同 L 级的产品评测重点完全不同，不在同一级的直接剔除（不是真正竞品，是不同物种）。
公开榜单只能”剔除明显不及格”，自建评测集才是护城河：第一周用 MMLU/GSM8K/HumanEval 综合得分推荐”最高的那家”，POC 阶段结果完全反转——公开榜单分数最高的模型在业务场景下表现反而不如分数靠后的模型。原因：公开 Benchmark 解决的是”模型在通用能力上的相对位置”，不代表它在你给客户写邮件、做行业推荐、审合同上一样靠谱。
自建评测集三原则：优先采 Bad Case（从真实业务日志捞翻车记录，AI 生成的样本只能作为补充）、场景化拆维度（推理类看逻辑链 / 生成类看流畅度 / 问答类看准确率，不同任务定义不同评分卡）、人工筛选不可省（AI 生成的题目大概率有偏差）。
模型选型要看四维度平衡而非单一分数：业务场景匹配度（公开榜单高分≠你的场景好用）、单价/成本（高并发低成本场景选便宜模型）、时延（客服场景 2 秒响应比多输出 10% 准确率更重要）、公开榜单（只用来剔除明显不及格）。业务越细分，“最强”越不重要，“匹配”越重要。
AI PM 与传统 PM 最大差异不再是”会不会用 AI 工具”，而是”会不会做 AI 评测”：这是目前 AI PM 求职市场上区分度最高的硬技能之一。信息收集可外包，洞察必须自己来——公开榜单分数、竞品在做什么、AI 可以快速整合，但”竞品在做什么选择？背后的用户假设是什么？差异化机会在哪里？“这些战略判断 AI 无法替代。
“三秒规则”判断 AI 输出是否套话：「如果 AI 给你的结论里，没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。」真正有用的竞品分析最终一定会出现”这一点和我的常识相反”的瞬间。如果通篇都是”嗯，对，是这样”——意味着 AI 给的是平均值意见，平均值不能成为决策依据。
人机协作分工清晰可划分：AI 负责信息收集（多源整合、竞品动态跟踪、功能清单生成、初步对比表格）、评测集执行（批量跑题、统计得分、异常标记）、辅助生成报告框架（PPT 大纲、图表制作、格式规范）；人负责战略判断（评测集设计、指标权重设定、差异化机会判断、商业价值评估）、质量把关（筛除幻觉内容、验证关键数据、识别套话、补充业务直觉）、决策与责任（最终选型建议、风险评估、向上汇报、承担决策后果）。AI 是肌肉，判断是大脑。
AI 时代竞品分析的本质变了：老竞品分析的本质是回答”我做什么 vs 别人做什么”（功能视角），AI 竞品分析的本质是回答”我能定义什么样的内容质量标准，让自己的评测集成为护城河”（质量视角）。第一种比的是清单，第二种比的是判断力。

实操内容保留

代码/配置

（本文无实操代码）

内容生成质量评测表（5 个量化维度）

浩子AIPM 给出的 Deep Research 功能对比评测维度：

评测维度	说明	权重建议
完整性	信息覆盖面、关键要素是否遗漏	20%
准确性	事实核查、数据引用正确性	30%
来源可信度	引用来源的权威性和多样性	15%
结构化程度	输出是否有清晰逻辑层次	15%
稳定性/幻觉率	多次跑同题结果一致性、是否编造	20%

配合 30 题评测集（新闻时效 / 金融分析 / 行业研究 / 学术综述四种场景）。

Steps to AGI 三级分类

级别	核心能力	评测重点	典型产品形态
L1（对话级）	以对话为核心	对话质量：理解力、上下文记忆、回应自然度	ChatGPT 早期版本、聊天机器人
L2（推理级）	能完成多步推理	推理深度：逻辑链、Long CoT 表现、知识应用	Claude 3.5 Sonnet with thinking、o1 系列
L3（任务级）	自主规划并执行任务	任务完成度：目标对齐、工具调用、自我修正	Agent 产品、Devin、Cursor Composer

核心 SOP：先用 5 分钟把所有候选竞品按 L1/L2/L3 分类，不在同一级的直接剔除——它们不是真正的竞品，是不同物种。这一步省的不只是时间，更是方向性的错误。

人 × AI 协作分工表

环节	AI 负责	人负责
信息收集	多源整合、竞品动态跟踪、功能清单生成、初步对比表格	判断信息可信度、筛选关键维度、定义对比框架
评测执行	批量跑题、统计得分、异常标记、数据可视化	评测集设计、指标权重设定、Bad Case 补充、结果解读
分析推演	辅助生成报告框架、PPT 大纲、图表制作、格式规范	差异化机会判断、商业价值评估、战略建议、风险识别
质量把关	初步逻辑自查、格式一致性检查	筛除幻觉内容、验证关键数据、识别套话、补充业务直觉
决策责任	提供分析依据和备选方案	最终选型建议、风险评估、向上汇报、承担决策后果

核心原则：AI 是肌肉（处理重复性高、信息量大、逻辑清晰的标准化任务），判断是大脑（需要业务直觉判断、深度用户共情、承担责任的决策）。

操作步骤

AI 竞品分析 SOP（浩子AIPM 4 周血泪版）：

第一步（5 分钟）：用 Steps to AGI 分级粗筛——把所有候选竞品按 L1/L2/L3 分类，不在同一级的直接剔除
第二步（3 天）：构建评测集——从真实业务日志捞 Bad Case（优先级最高）、补充典型正向场景、AI 生成补充样本、人工筛选过一遍（必须）
第三步（1 天）：定义评测维度和权重——不同任务类型（推理/生成/问答）定义不同评分卡，明确哪个维度是一票否决项
第四步（2-3 天）：批量跑评测——让 AI 执行、统计、异常标记，人工抽查 10-20% 验证
第五步（1 天）：战略判断——用”三秒规则”检查 AI 输出是否套话，补充业务直觉和差异化机会判断
第六步（半天）：四维度平衡决策——业务场景匹配度 > 成本/时延 > 公开榜单（仅用来剔除不及格）

原文精彩摘录

那一刻我才反应过来：我用错了工具。AI 产品和传统软件的核心差异，根本不在功能多少，而在 内容生成质量 ——而我手里所有的传统竞品分析框架，恰恰都不能量化这一点。

传统功能矩阵图，统计的是「 有没有这个功能 」。但 AI 产品的核心差异从来不是「功能有没有」——绝大部分头部产品的功能清单都长得像同一张脸—— 真正的差异在「同一个功能，谁做得更好」 。而「好不好」是一个内容生成质量的问题， 不能用 ✅❌ 表达 。

今天大部分 AI 产品本质上是「同一批底层模型 + 同一批向量数据库 + 同一类 Agent 框架」的不同套壳。 技术层和模型层在很多赛道上已经趋同到 90% 以上的雷同度。 继续用六层对比，等于在比较「都用了同一款发动机的五辆车谁更强」——结果只能是没有结果。

不同 L 级的产品,评测重点完全不同。 用 L1 的评测标准去测 L3 的 Agent 产品，约等于用「打字速度」评测一个程序员——驴唇不对马嘴。

公开 Benchmark 解决的是「 模型在通用能力上的相对位置 」，而 AI 产品要解决的是「 模型在你的业务场景里好不好用 」。这两件事经常 完全无关 。MMLU 高分意味着这个模型在多任务学习数据集上表现好，不代表它在你给客户写邮件、给用户做行业推荐、给法务团队审合同上一样靠谱。

最强的模型不等于最适合的模型 。一款在公开榜单顶级的模型，如果业务场景是高并发、低成本的客服或推荐，选一个综合得分稍低但单价更便宜、时延更短的模型反而更合理。 业务越细分，“最强”越不重要，“匹配”越重要。

「如果 AI 给你的结论里，没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。」真正有用的竞品分析，最终一定会出现「 这一点和我的常识相反 」的瞬间。如果通篇看下来都是「 嗯，对，是这样 」，意味着 AI 给的是平均值意见——而平均值不能成为决策依据。

老竞品分析的本质是回答「我做什么 vs 别人做什么」，而 AI 竞品分析的本质是回答「我能定义什么样的内容质量标准，让自己的评测集成为护城河」。 第一种是功能视角，第二种是质量视角。第一种比的是清单，第二种比的是判断力。

也正因为这个转变，AI PM 和传统 PM 最大的差异不再是「会不会用 AI 工具」，而是「 会不会做 AI 评测 」——这件事很多 PM 都还没意识到，也是我观察到的、目前 AI PM 求职市场上区分度最高的硬技能之一。

给你 3 个我用了 4 周才学到的建议：（1）第一周别急着写报告 ，先花 3 天构建你的评测集——评测集的设计深度直接决定后面分析的天花板；（2）不要相信公开榜单 ，自建场景化评测集是 AI PM 的基本功；（3）不要外包判断 ，AI 是肌肉，判断是大脑。

关键概念

AI竞品分析 — AI 产品时代 PM 必备方法论：传统三件套替代 + Steps to AGI 分级 + 自建评测集 + 三秒规则 + 人 × AI 协作分工
Steps to AGI 分级 — AI 竞品分析核心粗筛工具：L1 对话级 / L2 推理级 / L3 任务级，不同 L 级评测重点完全不同
AI评估计分板 — 与本文方法论互为镜像：评估计分板从企业级 SaaS 视角讲 R-U-B 三维漏斗 + Golden Set 四阶 + LLM-as-a-Judge（评估体系怎么搭建），AI 竞品分析从 PM 个人 4 周血泪视角讲三件套替代 + Steps to AGI 分级 + 三秒规则（为什么传统框架失效 + 该用什么替代）
人机协同 — AI 做苦力，我做判断：人机协同在 PM 工作场景的具体落点，“三秒规则”是 PM 视角的人工复核判断准则
产品分析 — 与本文互补：产品分析处理交易类产品四维分析，AI 竞品分析处理 AI 原生产品的竞品评估
SWOT 分析 — 传统竞品分析工具，在 AI 产品身上失效
功能矩阵图 — 传统竞品分析工具，只能表达”有没有”无法量化”好不好”
六层架构 — 传统竞品分析工具，在套壳时代失去信息量（4 层雷同度 90%+）
内容生成质量评测表 — 替代功能矩阵图：5 个量化维度（完整性、准确性、来源可信度、结构化程度、稳定性/幻觉率）+ 30 题评测集
四层架构 — 替代六层架构：去掉冗余层，把市场层和商业层独立作为立项判断前置环节
公开 Benchmark — MMLU / GSM8K / HumanEval 等通用评测集，只能”剔除明显不及格”不能作为业务决策依据
Bad Case 优先原则 — 自建评测集第一原则：从真实业务日志捞翻车记录，AI 生成样本只作补充
三秒规则 — 判断 AI 输出是否套话：如果没有任何一句话需要停下来想 3 秒以上，大概率是平均值意见不能作决策依据

与其他素材的关联

本文与 2026-05-11-ai-evaluation-scoreboard 形成 AI PM 评测能力的完整双视角——评估计分板从企业级评估体系建设视角讲”怎么搭建”，本文从 PM 个人 4 周血泪视角讲”为什么传统框架失效 + 该用什么替代”。两者在核心原则上高度一致：

评测集设计：Golden Set 四阶生命周期（基础池 60% + 陷阱池 + 红线池 + 活水池）vs Bad Case 优先 + 场景化拆维度 + 人工筛选
评测维度：R-U-B 三维漏斗（Result 结果确定性 / User Experience 交互呼吸感 / Business 商业损益）vs 内容生成质量评测表 5 维度
人机协同：LLM-as-a-Judge 处理 80% 但 20% 边界问题必须人介入 vs AI 做苦力人做判断 + 三秒规则复核
判断力护城河：“能穿透算法黑盒、精准定义’什么样的 AI 才是好产品好员工’并量化为整个组织可执行标准的能力，才是 PM 真正的灵魂和职业护城河”vs”会不会做 AI 评测是目前 AI PM 求职市场上区分度最高的硬技能之一”

本文与 2026-05-09-pm-ai-playbook 的”信息收集可外包，洞察必须自己来”形成具体落地——给出该原则在竞品分析场景的翻车案例（把判断外包给 AI → 评审反问三个”为什么”）和判断准则（三秒规则）。

本文与 2026-05-09-product-to-startup-blues 的”判断力是 AI 时代真正的护城河”一脉相承——把判断力从抽象命题具体化为”评测能力护城河”，让 AI PM 求职市场上的硬技能定义首次有了清晰答案。

个人知识库

探索

2026-05-20-woshipm-ai-pm-competitive-analysis-3-frameworks