做完一个AI产品,我重新理解了PRD这件事

从医药翻译中的致命错误出发,作者通过 AI 翻译产品的实战经验,提炼出 7 条 AI 产品 PRD 撰写心法:流动文档、显式权衡、内置 Bad Case 池、捕捉隐性心理负担、评测权重反推、HITL 设计、AI 辅助但人做判断。核心洞察:AI 产品的底层假设是”模型不确定”,PRD 必须为错误留位置。

基本信息

核心观点

  1. AI 产品 PRD 必须持续更新:传统软件 PRD 写完即归档,但 AI 产品的模型、数据、用户认知都在变化,PRD 应该有完整的 Changelog(v1.0 到 v3.0),记录每个版本改了什么、为什么改、改完什么效果。PRD 是给未来的自己留的护栏。

  2. 显式权衡比功能清单更值钱:AI 产品 PRD 最有价值的章节不是功能清单,而是”显式权衡”——评估过的所有方案、为什么不选另外几个、什么条件触发换方案。例如术语注入:RAG vs Prompt 注入,在 100 条规模下选 Prompt 注入,并写明”等术语库到 500+ 条时再切 RAG”。

  3. 必须内置 Bad Case 池:AI 产品出错是常态而非异常,PRD 里必须有 Bad Case 池章节。每条 Bad Case 包含:错误样本、错误类型、根因分析、修复方案、验证结果(5+ 条历史 case 回归测试)、关联 Case、状态。5 步闭环:归档、归因、修复、验证、沉淀。作者的产品累计 47 条,闭环修复 43 条,闭环率 91.5%。

  4. 用户要的不是”准确”,是”知道哪里可能不准”:作者发现自己作为高频用户,翻译后第一件事是从头到尾通读,因为”不知道哪里可能不准”。V2 加了 [需确认] 自动标注(模型对不确定的字段标黄),用户修改率从 22% 降到 12%。核心不是”做到 100% 准确”(做不到),是”诚实地暴露不确定性”。Perplexity 挂引用、Cursor 做 diff 预览、ChatGPT 说”我不太确定”,都是同一逻辑。

  5. 评测权重按错误代价反推:评测体系本身是产品定义的一部分。作者的 4 维评分:准确性 40%、安全性 30%、专业度 20%、有用性 10%,权重按”错误代价的不可逆程度”反推。不同场景权重完全不同:电商场景”相关性+多样性”比准确性更值钱;办公场景”效率”是核心、“准确性”是底线;创意工具”多样性+惊喜感”可能比准确性更重要。

  6. 主动设计”人在哪里介入”(HITL):模型不应该”替代人”,应该”辅助人+标注不确定性+留出审核空间”。作者设计了三层:L1 输出标注([需确认])、L2 修改追踪(记录用户改了哪些地方)、L3 主动反馈(一键报错按钮)。Cursor 的 Accept/Reject、Midjourney 的四宫格、ChatGPT 的 Regenerate,都是精心设计的”人在哪介入”。全自动在垂直专业场景下是伪命题。

  7. 这份 PRD 本身是 AI 辅助+人的判断的协作产物:作者用 AI 整理框架、找参考、扩写细节,但”为什么这么决定”、“为什么用户是这样反应的”必须自己写。如何和 AI 协作写 PRD,决定了产品里如何设计 AI 和用户的协作。

实操内容保留

案例:临床试验期数误译

  • 错误样本:Phase III clinical trial → “临床 2 期”(正确应为”临床 3 期”)
  • 严重性:临床 2 期是小范围疗效验证(几十到几百人),3 期是大规模确证试验(上千人,上市前最后一关),监管文件里弄混是要出大事的
  • 拦截机制:双模型审核 + [需确认] 标注,在质检环节被拦下

Bad Case 池字段设计

- 错误样本:具体的输入输出
- 错误类型:分类标签
- 根因分析:归到 Prompt 哪一层
- 修复方案:具体改动
- 验证结果:用 5+ 条历史 case 回归测试
- 关联 Case:相似错误
- 状态:待修复/已修复/已验证

[需确认] 标注机制

  • 触发条件:模型对自己不确定的字段(专业术语、数字、编号)
  • 视觉呈现:自动标黄
  • 效果:用户不用全文通读,只需重点看标注的地方
  • 结果:修改率从 22% 降到 12%,用户开始信任工具并提体验优化需求

PRD Prompt 章节 Changelog 示例

v1.0 → 某个版本:因为踩了编号错译的坑,加了数字校验规则
某个版本:用户反馈翻译不够"专业",把角色描述细化了
某个版本:用户修改率到 22% 还降不下去,干脆加了独立的审核 Prompt

原文精彩摘录

“有一天我在做翻译核对。原文写的是Phase III clinical trial,AI 给我翻成了「临床 2 期」。我看到的瞬间。。。冒冷汗。懂点医药的朋友应该知道这事儿有多严重。临床 2 期是小范围疗效验证,几十到几百人;3 期是大规模确证试验,上千人,是产品上市前的最后一关。监管文件里 2 和 3 弄混,是要出大事的。”

“V1 上线的时候,我以为用户的核心诉求很简单——翻译要准。所以 V1.5 我把术语库做了,把 Prompt 也做了 4 层结构,结果用户修改率从 35% 降到了 22%。降了,但远远不够。我那时候特别纳闷。直到有一天,我自己作为产品高频用户,用这玩意翻完一份文档之后,注意到一个动作。我做的第一件事不是看哪里不准,是从头到尾通读一遍。为啥?因为我不知道哪里可能不准。这个动作非常烦人——等于把翻译节省下来的时间又花在了通读上。我就在那一瞬间反应过来——用户用 AI 翻译,最大的心理负担不是「翻译不准」,是「我不知道哪里可能翻得不准」。”

“AI 产品的核心不是「做到 100% 准确」(你做不到),是「诚实地暴露不确定性」。用户不需要AI完美,用户需要AI诚实。把不确定的地方告诉我,剩下的我自己能处理。”

“传统软件 PRD 的底层假设是「程序是确定的」。你写 if A then B,输入 A 必然输出 B。所以 PRD 只需要写清楚「我要做什么」。AI软件PRD的底层假设是「模型是不确定的」。同一个输入,今天可能输出X,明天可能输出Y。这个差异,决定了 AI 产品 PRD 里的所有东西。”

“所有 AI 产品的护城河都在「错误如何归因、修复、不再发生」这件事上。功能能抄,模型能换,但你积累了几百条 Bad Case 的归因记录和闭环修复经验——是抄不走的。“

关键概念

相关页面