Golden Set

AI 产品评估的真值数据集,由 PM 主导构建的高质量标注样本集合,用于持续验证模型表现与业务目标的对齐度。

简介

Golden Set(黄金数据集)是 AI 产品评估体系的基石,是一组经过精心设计和人工标注的高质量测试样本集合。与传统软件的单元测试类似,Golden Set 为 AI 产品提供了可重复、可量化的评估标准。它不仅包含理想化的正常案例,更重要的是涵盖了边缘案例、对抗样本和业务红线场景,确保模型在真实业务环境中的稳定性和可靠性。

Golden Set 的核心价值在于:它是技术团队、业务团队、产品团队统一评估标准的桥梁。当算法团队说”准确率提升了 3%“,而业务团队抱怨”客诉反而增加了”,问题往往出在评估体系——算法用的是理想化测试集,业务面对的是真实噪音数据。Golden Set 通过引入真实场景的复杂性,让所有团队基于同一份”真相”对话。

关键信息

构建主体:必须由产品经理(PM)主导,不可外包给算法团队或测试团队。PM 最了解业务红线、用户体验边界和商业目标,只有 PM 能确保 Golden Set 真正反映产品成功的定义。

样本配比

  • 60% 常规样本:覆盖日常高频场景,验证模型基础能力
  • 40% 边缘/对抗样本:覆盖异常情况、边界条件、恶意输入、业务红线触发场景

样本来源:必须来自线上真实数据的噪音,而不是工程师想象的”理想问答”。包括:

  • 用户实际输入的拼写错误、语法混乱、多义词歧义
  • 跨语言混杂、方言俚语、网络热梗
  • 恶意诱导、越权请求、隐私探测
  • 业务规则冲突、合规红线触碰

标注规则:PM 需要明确定义什么是”好”和”坏”:

  • 事实性错误(幻觉、编造数据)
  • 过度承诺(超出系统能力范围的保证)
  • 机械回复(模板化输出、缺乏针对性)
  • 风险越权(触碰业务红线、合规问题)
  • 体验缺陷(没有边界提示、缺少置信度标注、无法溯源)

核心特性

1. 业务对齐而非算法对齐

传统算法评估追求”模型准确率”,但业务成功的定义往往不是准确率最高。例如:

  • 客服场景:过度承诺的”100% 满意”回复会导致后续投诉,不如谨慎的”我帮您确认一下”
  • 风控场景:一个漏检的高风险交易可能造成百万损失,准确率 99% 但召回率 80% 是不可接受的
  • 推荐场景:推荐准确但触碰合规红线(如向未成年人推荐成人内容),业务价值为零

Golden Set 的标注规则必须直接映射到业务目标:一次通过率、赔付率、转化率、留存率、合规通过率等北极星指标。

2. 红线一票否决机制

在 Golden Set 中,业务红线样本(如合规违规、隐私泄露、过度承诺)应设置为”一票否决”:无论模型在其他样本上表现多好,只要触发任何一个红线样本,整体评分记为不合格。

这种机制倒逼团队优先解决”不能犯的错误”,而不是盲目追求平均准确率。某跨境物流助手案例:模型推荐准确率 95%,但因为没把”禁限运规则冲突”设为红线,导致大量扣关投诉。改进方法是在 Golden Set 中加入 50 个禁限运冲突样本,任何一个触发即判定为失败,两周后投诉率明显下降。

3. 持续演进的活数据集

Golden Set 不是一次性构建完成的静态数据集,而是随着业务发展持续演进的活数据集:

  • 每次线上事故后,将触发问题的真实输入加入 Golden Set
  • 每个季度根据用户反馈热点,补充新的边缘样本
  • 业务规则变更时,更新对应的标注标准

Golden Set 的版本管理和变更记录,本身就是产品演进的知识沉淀。

4. 跨部门协作的共同语言

Golden Set 让技术、业务、产品团队基于同一套标准对话:

  • 算法团队:在 Golden Set 上跑评估,用数据说话而非主观判断
  • 业务团队:参与标注规则制定,确保评估标准反映真实痛点
  • 产品团队:通过 Golden Set 量化产品改进的效果,对比版本间差异

当所有团队都在同一份 Golden Set 上跑分时,“效果好不好”从争论变成了可验证的事实。

不同素材中的观点

2026-03-30-ai-pm-core-knowledge:PM 必须主导,60/40 配比,对抗样本来自真实噪音

这篇素材强调三个关键点:

  1. PM 主导不可外包:Golden Set 的构建必须由产品经理主导,因为只有 PM 最清楚什么是业务红线、什么是可接受的风险边界。算法团队关注模型指标,测试团队关注功能覆盖,只有 PM 关注业务结果。
  2. 60% 常规 + 40% 边缘对抗:这个配比不是随意定的。60% 常规样本确保基础能力稳定,40% 边缘/对抗样本防止模型在异常情况下崩溃。很多团队的错误是 Golden Set 里 90% 都是”完美问答”,导致模型在实验室里表现完美,一上线就翻车。
  3. 样本来自线上真实噪音:不是工程师坐在会议室里脑暴出来的”用户可能会这么问”,而是从线上日志、客诉记录、异常报警中提取的真实输入。真实数据里充满了拼写错误、语法混乱、多义词歧义、恶意诱导,这些才是模型上线后要面对的真实挑战。

素材还提到了一个反面案例:某跨境物流助手项目,模型”推荐准确率”看上去很高,但仍有大量扣关投诉。原因是评估只看了价格和时效,没把”禁限运规则冲突”设成红线。改法很简单:把”禁限运冲突率”纳入 R 维度一票否决,同时在 U 维度要求系统必须给出边界提示(如”包含电池请走特货通道”)。这个案例说明:Golden Set 的标注规则必须直接映射到业务红线。

实用信息

如何构建第一版 Golden Set

第一步:定义业务红线(1-2 小时 PM 独立完成)

  • 列出所有”绝对不能犯的错误”:合规违规、隐私泄露、过度承诺、误导性建议等
  • 为每个红线定义判定标准(什么情况算触发)
  • 这些红线样本将占 Golden Set 的 10-15%

第二步:采集真实输入(1 周,协同业务/客服/测试团队)

  • 从线上日志中随机抽取 1000 条真实用户输入
  • 从客诉记录中提取所有导致投诉的输入
  • 从压测/渗透测试中提取对抗样本(恶意输入、边界条件)
  • 从业务规则文档中提取规则冲突场景

第三步:分层标注(2-3 天,PM 主导 + 业务专家参与)

  • 将采集的输入按业务场景分类(常规/边缘/对抗)
  • 为每条输入标注”理想输出”或”可接受输出范围”
  • 标注判定规则:什么情况算正确、什么情况算错误、什么情况算红线触发
  • 确保 60% 常规 + 30% 边缘 + 10% 红线的配比

第四步:版本管理(持续维护)

  • 将 Golden Set 纳入版本控制(Git)
  • 每次线上事故后,将触发问题的输入加入 Golden Set
  • 每季度 review 一次,剔除过时样本、补充新场景
  • 记录每个样本的来源、添加原因、标注依据

常见错误

错误 1:算法团队自己构建 Golden Set 算法团队倾向于构建”能让模型得高分”的测试集,而不是”能反映业务成功”的测试集。结果是模型在 Golden Set 上 95 分,但业务指标不升反降。

正确做法:PM 主导标注规则,算法团队负责跑评估。PM 不需要懂算法细节,但必须清楚”什么样的输出是业务可接受的”。

错误 2:只包含正常样本,缺少边缘/对抗样本 很多团队的 Golden Set 看起来像教科书里的”完美问答”,用户永远用标准普通话提问、输入格式完美、意图清晰明确。这种 Golden Set 对提升真实场景的鲁棒性毫无帮助。

正确做法:至少 40% 边缘/对抗样本。包括拼写错误、语法混乱、多义词歧义、恶意诱导、跨语言混杂、业务规则冲突等。

错误 3:一次性构建后不再更新 业务在变化、用户行为在变化、产品规则在变化,Golden Set 如果不更新就会逐渐失去代表性。

正确做法:将 Golden Set 维护纳入产品迭代流程。每次 Sprint 结束时 review 一次,每次线上事故后立即补充对应样本。

与 R-U-B 计分板的配合

Golden Set 是”测什么”,R-U-B 计分板 是”怎么评分”。两者配合使用:

  • Golden Set 中的每个样本,在 R-U-B 三个维度上都有明确的评分标准
  • R 维度(业务红线):Golden Set 中标记为”红线样本”的,任何一个触发即判定为 0 分
  • U 维度(用户体验):Golden Set 中标注了是否需要边界提示、置信度标注、溯源依据
  • B 维度(商业指标):Golden Set 的整体通过率直接映射到业务北极星指标

工具推荐

  • 标注工具:Label Studio、Prodigy(支持自定义标注规则和多人协作)
  • 版本管理:Git + DVC(Data Version Control,专门用于数据集版本管理)
  • 评估自动化:结合 LLM-as-a-Judge,用更强模型按 Golden Set 的标注规则自动评分
  • 监控看板:将 Golden Set 通过率作为关键指标,纳入产品监控面板

相关页面

  • R-U-B 计分板:Golden Set 是”测什么”,R-U-B 是”怎么评分”
  • LLM-as-a-Judge:用 AI 自动化 Golden Set 评估,从周级提速到小时级
  • AI产品经理工作流:Golden Set 构建是 AI PM 核心工作流的一部分
  • HITL:Golden Set 的标注过程本身就是 Human-in-the-Loop