AI 产品经理如何从 0 到 1 搭建测试集:以智能购车问答为例
以智能购车问答为实战案例,拆解 AI 产品测试集从 0 到 1 的七步设计法——覆盖七类用户决策链路场景、五维评测指标体系、测试集贯穿模型选型到版本回归的全链路迭代,核心论点是”测试集是 AI PM 从感觉判断走向工程化思维的第一步”。
基本信息
- 来源类型:网页文章
- 原文位置:raw/articles/2026-06-09-221112-tg-5c0c5b.md
- 原文 URL:https://www.woshipm.com/ai/6409062.html
- 消化日期:2026-06-09
核心观点
-
AI 产品验收不能靠感觉,必须靠测试集:传统功能验收看流程是否跑通、接口是否返回正确结果,但 AI 问答同一问题每次措辞不同、今天好不代表明天稳定。没有测试集的三重恶果——产品验收靠感觉说不清好在哪里、Prompt 优化变成玄学改一句试几条就上线、Bad Case 修了又复现因为没有回归机制。测试集把好答案的标准从主观判断变成可复用、可评测的样本集合。
-
高决策成本场景(如购车)需要独立评测体系,幻觉控制是生死线:用户问”这款车适合三口之家吗”,模型回答”适合,空间大续航长”看似没问题,但真正有帮助的回答应结合空间数据、安全配置、用车场景和预算;更要命的是模型曾自行编造”本月购车赠送充电桩”的虚假权益,运营团队紧急下线。在高决策成本场景中,AI 质量不只看”顺不顺”,还要看参数准确性、信息完整性和幻觉抑制。
-
测试集设计的核心是覆盖用户决策链路而非堆问题数量:早期团队犯过的典型错误是只收集 50 条”XX 车型续航多少”简单问答题,Prompt 一改简单题都答对但”家用选哪款""和 XX 比怎么样”全翻车。真正可用的测试集至少覆盖七类场景——基础知识类、价格权益类、决策辅助类、对比类、流程服务类、边界问题、幻觉高风险类,每条样本包含用户问题、场景分类、期望要点、知识来源、检索需求、归纳许可、幻觉风险和评分维度。
-
五维评测指标体系(准确性·召回完整性·相关性·可用性·幻觉控制)是团队对齐的基础:只看准确性不够——“百公里加速 6.5 秒、续航 620 公里”准确但用户问的是”适不适合上下班通勤”。五指标推出来时研发不理解”PM 为什么管评测”,直到回归测试发现模型编造不存在的置换补贴(虚假宣传法律风险),研发才主动要求每次 Prompt 变更必须跑完整测试集——测试集成了业务风控的一环。
-
测试集必须贯穿全链路迭代——模型选型、Prompt 优化、知识库建设、版本回归:模型选型案例——通用对话评测 A 模型分数更高差点直接选 A,但用业务测试集一跑发现 A 在价格权益类问题幻觉率高出 B 近一倍,最终选了 B(通用排行榜和业务表现可能是两回事)。Prompt 优化案例——把”请基于以下知识回答”改成”请基于以下知识准确回答”,核心用例通过率提升但幻觉专项测试集有一条从通过变失败(模型为了”准确”不敢说任何推断性内容),没跑完整测试集这个回归就带着上线了。测试集分层管理:核心集(高频高价值,每次必须回归)、扩展集(覆盖长尾场景测泛化能力)、Bad Case 集(防止历史问题反复)、幻觉集(专门卡控编造风险)、上线验收集(发布前准入标准)。
-
PM 用测试集定义上线标准,角色从”提需求的”变成”定标准的”:没有评测体系时,“这个版本变好了”和”那个版本也不错”争论半天谁也说不动谁;有了测试集,每次改动是好是坏跑一遍就知道,线上 Bad Case 也能归因到具体环节。测试集不是一次性文档,不是技术团队的专属工具,而是 AI 产品长期运营的基础设施,更是 AI 产品经理走向工程化思维的第一步。
实操内容保留
操作步骤
-
测试集至少覆盖七类用户决策场景:
- 基础知识类(参数准确不能模糊)
- 价格权益类(与业务规则强相关,最易出幻觉)
- 决策辅助类(把用户需求映射到卖点而非罗列参数)
- 对比类(考验知识结构化程度)
- 流程服务类(引导试驾预约和下订等下一步)
- 边界问题(测试模型是否知道自己不知道)
- 幻觉高风险类(看模型在诱导下能否克制)
-
每条测试样本结构化字段:用户问题 → 场景分类 → 期望要点 → 知识来源 → 是否需要检索 → 是否允许归纳 → 幻觉风险 → 评分维度。这样当模型答错时,才能判断是知识库缺失、检索未命中、模型未用检索结果还是 Prompt 约束不足。
-
五维评测指标:准确性(事实是否正确)、召回完整性(关键信息是否遗漏)、相关性(回答是否对准意图)、可用性(能否帮用户做下一步决策)、幻觉控制(有没有编造)。
-
测试集分层管理五级体系:
- 核心集:高频高价值,每次必须回归
- 扩展集:覆盖长尾场景,测泛化能力
- Bad Case 集:防止历史问题反复
- 幻觉集:专门卡控编造风险
- 上线验收集:发布前的准入标准
(本文无实操代码/模板)
关键概念
- AI评估计分板 — 本文的测试集设计思路与评估计分板的 Golden Set 四阶生命周期(基础池/陷阱池/红线池/活水池)高度同源
- AI产品PRD — 文章强调测试集应在 PRD 阶段就纳入评测权重定义
- 提示词工程 — Prompt 优化必须配合测试集做回归验证,不能改一句试几条就上线
- 模型幻觉 — 本文的核心风控对象,购车场景中模型编造虚假权益的案例是测试集存在的直接驱动力
与其他素材的关联
- 与 2026-05-11-ai-evaluation-scoreboard 的关系:本文是评估计分板方法论在垂直业务场景(购车问答)中的落地实证。评估计分板提出 Golden Set 四阶 + R-U-B 三维 + LLM-as-a-Judge,本文用购车场景验证了”七类决策链路覆盖 + 五维指标 + 分层管理”的具体设计方法,两者构成”理论框架 + 垂直实操”的互补关系。特别共鸣点:模型编造”赠送充电桩”权益 ↔ 评估计分板的”业务幻觉率”红线。
- 与 2026-05-28-woshipm-bleu-rouge-evaluation 的关系:本文的五维指标(准确性/召回完整性/相关性/可用性/幻觉控制)是 BLEU/ROUGE 所无法覆盖的大模型产品评测维度,验证了”BLEU/ROUGE 只是基础体检项”的判断。
- 与 2026-05-20-ai-pm-competitive-analysis 的关系:本文的模型选型案例(A 通用评测分数高但业务幻觉率高)验证了”公开榜单分数最高的模型在业务场景下表现反而不如分数靠后的模型”这一反直觉结论。
原文精彩摘录
更要命的是,有次模型在回答优惠时自行编造了一条本月购车赠送充电桩的权益,运营团队发现后紧急下线处理。这件事之后团队才真正意识到,在购车这种高决策成本场景中,AI 问答的质量不能只看顺不顺,还要看参数是否准确、信息是否完整、是否抑制了幻觉和过度承诺。测试集的意义,就是把好答案的标准从主观判断变成可复用、可评测的样本集合。
回头看从零搭建测试集的过程,就是 AI 产品经理从感觉判断到数据说话的过程。没有评测体系的时候,你说这个版本变好了,研发说那个版本也不错,争论半天谁也说不动谁。有了测试集,每次改动是好是坏跑一遍就知道,线上出 Bad Case 也能归因到具体环节。更重要的是,当产品经理用测试集和指标来定义上线标准,他在团队中的角色就从提需求的变成了定标准的。