Golden Set

AI 产品评估的真值数据集，由 PM 主导构建的高质量标注样本集合，用于持续验证模型表现与业务目标的对齐度。

简介

Golden Set（黄金数据集）是 AI 产品评估体系的基石，是一组经过精心设计和人工标注的高质量测试样本集合。与传统软件的单元测试类似，Golden Set 为 AI 产品提供了可重复、可量化的评估标准。它不仅包含理想化的正常案例，更重要的是涵盖了边缘案例、对抗样本和业务红线场景，确保模型在真实业务环境中的稳定性和可靠性。

Golden Set 的核心价值在于：它是技术团队、业务团队、产品团队统一评估标准的桥梁。当算法团队说”准确率提升了 3%“，而业务团队抱怨”客诉反而增加了”，问题往往出在评估体系——算法用的是理想化测试集，业务面对的是真实噪音数据。Golden Set 通过引入真实场景的复杂性，让所有团队基于同一份”真相”对话。

关键信息

构建主体：必须由产品经理（PM）主导，不可外包给算法团队或测试团队。PM 最了解业务红线、用户体验边界和商业目标，只有 PM 能确保 Golden Set 真正反映产品成功的定义。

样本配比：

60% 常规样本：覆盖日常高频场景，验证模型基础能力
40% 边缘/对抗样本：覆盖异常情况、边界条件、恶意输入、业务红线触发场景

样本来源：必须来自线上真实数据的噪音，而不是工程师想象的”理想问答”。包括：

用户实际输入的拼写错误、语法混乱、多义词歧义
跨语言混杂、方言俚语、网络热梗
恶意诱导、越权请求、隐私探测
业务规则冲突、合规红线触碰

标注规则：PM 需要明确定义什么是”好”和”坏”：

事实性错误（幻觉、编造数据）
过度承诺（超出系统能力范围的保证）
机械回复（模板化输出、缺乏针对性）
风险越权（触碰业务红线、合规问题）
体验缺陷（没有边界提示、缺少置信度标注、无法溯源）

核心特性

1. 业务对齐而非算法对齐

传统算法评估追求”模型准确率”，但业务成功的定义往往不是准确率最高。例如：

客服场景：过度承诺的”100% 满意”回复会导致后续投诉，不如谨慎的”我帮您确认一下”
风控场景：一个漏检的高风险交易可能造成百万损失，准确率 99% 但召回率 80% 是不可接受的
推荐场景：推荐准确但触碰合规红线（如向未成年人推荐成人内容），业务价值为零

Golden Set 的标注规则必须直接映射到业务目标：一次通过率、赔付率、转化率、留存率、合规通过率等北极星指标。

2. 红线一票否决机制

在 Golden Set 中，业务红线样本（如合规违规、隐私泄露、过度承诺）应设置为”一票否决”：无论模型在其他样本上表现多好，只要触发任何一个红线样本，整体评分记为不合格。

这种机制倒逼团队优先解决”不能犯的错误”，而不是盲目追求平均准确率。某跨境物流助手案例：模型推荐准确率 95%，但因为没把”禁限运规则冲突”设为红线，导致大量扣关投诉。改进方法是在 Golden Set 中加入 50 个禁限运冲突样本，任何一个触发即判定为失败，两周后投诉率明显下降。

3. 持续演进的活数据集

Golden Set 不是一次性构建完成的静态数据集，而是随着业务发展持续演进的活数据集：

每次线上事故后，将触发问题的真实输入加入 Golden Set
每个季度根据用户反馈热点，补充新的边缘样本
业务规则变更时，更新对应的标注标准

Golden Set 的版本管理和变更记录，本身就是产品演进的知识沉淀。

4. 跨部门协作的共同语言

Golden Set 让技术、业务、产品团队基于同一套标准对话：

算法团队：在 Golden Set 上跑评估，用数据说话而非主观判断
业务团队：参与标注规则制定，确保评估标准反映真实痛点
产品团队：通过 Golden Set 量化产品改进的效果，对比版本间差异

当所有团队都在同一份 Golden Set 上跑分时，“效果好不好”从争论变成了可验证的事实。

不同素材中的观点

2026-03-30-ai-pm-core-knowledge：PM 必须主导，60/40 配比，对抗样本来自真实噪音

这篇素材强调三个关键点：

PM 主导不可外包：Golden Set 的构建必须由产品经理主导，因为只有 PM 最清楚什么是业务红线、什么是可接受的风险边界。算法团队关注模型指标，测试团队关注功能覆盖，只有 PM 关注业务结果。
60% 常规 + 40% 边缘对抗：这个配比不是随意定的。60% 常规样本确保基础能力稳定，40% 边缘/对抗样本防止模型在异常情况下崩溃。很多团队的错误是 Golden Set 里 90% 都是”完美问答”，导致模型在实验室里表现完美，一上线就翻车。
样本来自线上真实噪音：不是工程师坐在会议室里脑暴出来的”用户可能会这么问”，而是从线上日志、客诉记录、异常报警中提取的真实输入。真实数据里充满了拼写错误、语法混乱、多义词歧义、恶意诱导，这些才是模型上线后要面对的真实挑战。

素材还提到了一个反面案例：某跨境物流助手项目，模型”推荐准确率”看上去很高，但仍有大量扣关投诉。原因是评估只看了价格和时效，没把”禁限运规则冲突”设成红线。改法很简单：把”禁限运冲突率”纳入 R 维度一票否决，同时在 U 维度要求系统必须给出边界提示（如”包含电池请走特货通道”）。这个案例说明：Golden Set 的标注规则必须直接映射到业务红线。

实用信息

如何构建第一版 Golden Set

第一步：定义业务红线（1-2 小时 PM 独立完成）

列出所有”绝对不能犯的错误”：合规违规、隐私泄露、过度承诺、误导性建议等
为每个红线定义判定标准（什么情况算触发）
这些红线样本将占 Golden Set 的 10-15%

第二步：采集真实输入（1 周，协同业务/客服/测试团队）

从线上日志中随机抽取 1000 条真实用户输入
从客诉记录中提取所有导致投诉的输入
从压测/渗透测试中提取对抗样本（恶意输入、边界条件）
从业务规则文档中提取规则冲突场景

第三步：分层标注（2-3 天，PM 主导 + 业务专家参与）

将采集的输入按业务场景分类（常规/边缘/对抗）
为每条输入标注”理想输出”或”可接受输出范围”
标注判定规则：什么情况算正确、什么情况算错误、什么情况算红线触发
确保 60% 常规 + 30% 边缘 + 10% 红线的配比

第四步：版本管理（持续维护）

将 Golden Set 纳入版本控制（Git）
每次线上事故后，将触发问题的输入加入 Golden Set
每季度 review 一次，剔除过时样本、补充新场景
记录每个样本的来源、添加原因、标注依据

常见错误

❌ 错误 1：算法团队自己构建 Golden Set 算法团队倾向于构建”能让模型得高分”的测试集，而不是”能反映业务成功”的测试集。结果是模型在 Golden Set 上 95 分，但业务指标不升反降。

✅ 正确做法：PM 主导标注规则，算法团队负责跑评估。PM 不需要懂算法细节，但必须清楚”什么样的输出是业务可接受的”。

❌ 错误 2：只包含正常样本，缺少边缘/对抗样本 很多团队的 Golden Set 看起来像教科书里的”完美问答”，用户永远用标准普通话提问、输入格式完美、意图清晰明确。这种 Golden Set 对提升真实场景的鲁棒性毫无帮助。

✅ 正确做法：至少 40% 边缘/对抗样本。包括拼写错误、语法混乱、多义词歧义、恶意诱导、跨语言混杂、业务规则冲突等。

❌ 错误 3：一次性构建后不再更新 业务在变化、用户行为在变化、产品规则在变化，Golden Set 如果不更新就会逐渐失去代表性。

✅ 正确做法：将 Golden Set 维护纳入产品迭代流程。每次 Sprint 结束时 review 一次，每次线上事故后立即补充对应样本。

与 R-U-B 计分板的配合

Golden Set 是”测什么”，R-U-B 计分板是”怎么评分”。两者配合使用：

Golden Set 中的每个样本，在 R-U-B 三个维度上都有明确的评分标准
R 维度（业务红线）：Golden Set 中标记为”红线样本”的，任何一个触发即判定为 0 分
U 维度（用户体验）：Golden Set 中标注了是否需要边界提示、置信度标注、溯源依据
B 维度（商业指标）：Golden Set 的整体通过率直接映射到业务北极星指标

工具推荐

标注工具：Label Studio、Prodigy（支持自定义标注规则和多人协作）
版本管理：Git + DVC（Data Version Control，专门用于数据集版本管理）
评估自动化：结合 LLM-as-a-Judge，用更强模型按 Golden Set 的标注规则自动评分
监控看板：将 Golden Set 通过率作为关键指标，纳入产品监控面板

个人知识库

探索

Golden Set

Golden Set

简介

关键信息

核心特性

1. 业务对齐而非算法对齐

2. 红线一票否决机制

3. 持续演进的活数据集

4. 跨部门协作的共同语言

不同素材中的观点

2026-03-30-ai-pm-core-knowledge：PM 必须主导，60/40 配比，对抗样本来自真实噪音

实用信息

如何构建第一版 Golden Set

常见错误

与 R-U-B 计分板的配合

工具推荐

相关页面

关系图谱

快速导航

目录

反向链接