做完一个AI产品，我重新理解了PRD这件事

从医药翻译中的致命错误出发，作者通过 AI 翻译产品的实战经验，提炼出 7 条 AI 产品 PRD 撰写心法：流动文档、显式权衡、内置 Bad Case 池、捕捉隐性心理负担、评测权重反推、HITL 设计、AI 辅助但人做判断。核心洞察：AI 产品的底层假设是”模型不确定”，PRD 必须为错误留位置。

基本信息

来源：做完一个AI产品，我重新理解了PRD这件事
作者：CyberHuck（青钰）
发布时间：2026-05-13
产品背景：AI 翻译 Agent，迭代到 V3，用户修改率从 35% 降到 12%，累计 47 条 Bad Case

核心观点

AI 产品 PRD 必须持续更新：传统软件 PRD 写完即归档，但 AI 产品的模型、数据、用户认知都在变化，PRD 应该有完整的 Changelog（v1.0 到 v3.0），记录每个版本改了什么、为什么改、改完什么效果。PRD 是给未来的自己留的护栏。
显式权衡比功能清单更值钱：AI 产品 PRD 最有价值的章节不是功能清单，而是”显式权衡”——评估过的所有方案、为什么不选另外几个、什么条件触发换方案。例如术语注入：RAG vs Prompt 注入，在 100 条规模下选 Prompt 注入，并写明”等术语库到 500+ 条时再切 RAG”。
必须内置 Bad Case 池：AI 产品出错是常态而非异常，PRD 里必须有 Bad Case 池章节。每条 Bad Case 包含：错误样本、错误类型、根因分析、修复方案、验证结果（5+ 条历史 case 回归测试）、关联 Case、状态。5 步闭环：归档、归因、修复、验证、沉淀。作者的产品累计 47 条，闭环修复 43 条，闭环率 91.5%。
用户要的不是”准确”，是”知道哪里可能不准”：作者发现自己作为高频用户，翻译后第一件事是从头到尾通读，因为”不知道哪里可能不准”。V2 加了 [需确认] 自动标注（模型对不确定的字段标黄），用户修改率从 22% 降到 12%。核心不是”做到 100% 准确”（做不到），是”诚实地暴露不确定性”。Perplexity 挂引用、Cursor 做 diff 预览、ChatGPT 说”我不太确定”，都是同一逻辑。
评测权重按错误代价反推：评测体系本身是产品定义的一部分。作者的 4 维评分：准确性 40%、安全性 30%、专业度 20%、有用性 10%，权重按”错误代价的不可逆程度”反推。不同场景权重完全不同：电商场景”相关性+多样性”比准确性更值钱；办公场景”效率”是核心、“准确性”是底线；创意工具”多样性+惊喜感”可能比准确性更重要。
主动设计”人在哪里介入”（HITL）：模型不应该”替代人”，应该”辅助人+标注不确定性+留出审核空间”。作者设计了三层：L1 输出标注（[需确认]）、L2 修改追踪（记录用户改了哪些地方）、L3 主动反馈（一键报错按钮）。Cursor 的 Accept/Reject、Midjourney 的四宫格、ChatGPT 的 Regenerate，都是精心设计的”人在哪介入”。全自动在垂直专业场景下是伪命题。
这份 PRD 本身是 AI 辅助+人的判断的协作产物：作者用 AI 整理框架、找参考、扩写细节，但”为什么这么决定”、“为什么用户是这样反应的”必须自己写。如何和 AI 协作写 PRD，决定了产品里如何设计 AI 和用户的协作。

实操内容保留

案例：临床试验期数误译

错误样本：Phase III clinical trial → “临床 2 期”（正确应为”临床 3 期”）
严重性：临床 2 期是小范围疗效验证（几十到几百人），3 期是大规模确证试验（上千人，上市前最后一关），监管文件里弄混是要出大事的
拦截机制：双模型审核 + [需确认] 标注，在质检环节被拦下

Bad Case 池字段设计

- 错误样本：具体的输入输出
- 错误类型：分类标签
- 根因分析：归到 Prompt 哪一层
- 修复方案：具体改动
- 验证结果：用 5+ 条历史 case 回归测试
- 关联 Case：相似错误
- 状态：待修复/已修复/已验证

[需确认] 标注机制

触发条件：模型对自己不确定的字段（专业术语、数字、编号）
视觉呈现：自动标黄
效果：用户不用全文通读，只需重点看标注的地方
结果：修改率从 22% 降到 12%，用户开始信任工具并提体验优化需求

PRD Prompt 章节 Changelog 示例

v1.0 → 某个版本：因为踩了编号错译的坑，加了数字校验规则
某个版本：用户反馈翻译不够"专业"，把角色描述细化了
某个版本：用户修改率到 22% 还降不下去，干脆加了独立的审核 Prompt

原文精彩摘录

“有一天我在做翻译核对。原文写的是Phase III clinical trial，AI 给我翻成了「临床 2 期」。我看到的瞬间。。。冒冷汗。懂点医药的朋友应该知道这事儿有多严重。临床 2 期是小范围疗效验证，几十到几百人；3 期是大规模确证试验，上千人，是产品上市前的最后一关。监管文件里 2 和 3 弄混，是要出大事的。”

“V1 上线的时候，我以为用户的核心诉求很简单——翻译要准。所以 V1.5 我把术语库做了，把 Prompt 也做了 4 层结构，结果用户修改率从 35% 降到了 22%。降了，但远远不够。我那时候特别纳闷。直到有一天，我自己作为产品高频用户，用这玩意翻完一份文档之后，注意到一个动作。我做的第一件事不是看哪里不准，是从头到尾通读一遍。为啥？因为我不知道哪里可能不准。这个动作非常烦人——等于把翻译节省下来的时间又花在了通读上。我就在那一瞬间反应过来——用户用 AI 翻译，最大的心理负担不是「翻译不准」，是「我不知道哪里可能翻得不准」。”

“AI 产品的核心不是「做到 100% 准确」（你做不到），是「诚实地暴露不确定性」。用户不需要AI完美，用户需要AI诚实。把不确定的地方告诉我，剩下的我自己能处理。”

“传统软件 PRD 的底层假设是「程序是确定的」。你写 if A then B，输入 A 必然输出 B。所以 PRD 只需要写清楚「我要做什么」。AI软件PRD的底层假设是「模型是不确定的」。同一个输入，今天可能输出X，明天可能输出Y。这个差异，决定了 AI 产品 PRD 里的所有东西。”

“所有 AI 产品的护城河都在「错误如何归因、修复、不再发生」这件事上。功能能抄，模型能换，但你积累了几百条 Bad Case 的归因记录和闭环修复经验——是抄不走的。“

关键概念

PRD（产品需求文档）
Bad Case池
AI产品不确定性
HITL（Human in the Loop）
AI产品评测体系
显式技术权衡
AI翻译

个人知识库

探索

2026-05-18-ai-product-prd

做完一个AI产品，我重新理解了PRD这件事

基本信息

核心观点

实操内容保留

案例：临床试验期数误译

Bad Case 池字段设计

[需确认] 标注机制

PRD Prompt 章节 Changelog 示例

原文精彩摘录

关键概念

相关页面

关系图谱

快速导航

目录

反向链接