历经17个版本,终于跑通并落地AI-skill
餐饮SaaS优惠券迁移场景中,用 17 个版本迭代打磨出一套 AI Skill,将手工建券从 3-5 小时压缩到 4.5 分钟,覆盖 5 种券类型、20+ 关键坑的工程化实战复盘。
基本信息
- 来源类型:网页文章
- 原文位置:raw/articles/2026-06-09-220450-tg-5e40f6.md
- 原文 URL:https://www.woshipm.com/ai/6409197.html
- 消化日期:2026-06-09
核心观点
-
架构决策决定 30 倍性能差距:作者最初用浏览器自动化(模拟键盘逐字符输入)建券,每张 30 秒以上且极度脆弱;V2 转向直接调用后台创建接口后,单条创建时间从 30 秒降到 1 秒——这是一个架构级决策,证明了”直接 API 调用”远优于”模拟 UI 操作”
-
接口”假成功”是生产事故级隐患:门槛类型字段传错值时接口不报错,悄悄把”满 30 减 5”变成”无门槛减 5”;金额单位不一致(接口接收”分”,Excel 写”元”)导致”5 元券”变成”5 分券”。这类”不报错但行为不符合预期”的坑比直接报错危险十倍
-
每种业务类型都是独立知识域:从代金券扩展到商品兑换券、折扣券、配送券时,每种都有自己的”专属脾气”——折扣券规则类型不能用默认值、配送券渠道和子类型缺任何一个都报同一模糊错误码、商品兑换券商品列表为空必败。不能用”大概差不多”去套
-
AI Skill 是持续演化的知识体:V1 主文件 50 行,V17 主文件加参考文档超过 1000 行。它不是设计出来的,是在实战中长出来的。17 个版本、300+ 轮对话、400+ 次接口调用、20+ 关键坑一条条积累进排障指南
-
工程化细节决定体验断崖:商家上下文缓存(首次 30 秒→命中 0 秒)、创建前心跳探测(长对话连接静默断开防护)、结果写回文件(成功/失败/模板ID/错误原因),每个单拎都不是核心逻辑,缺一个体验就断崖式下降
实操内容保留
操作步骤
AI 验证三步法:
- 让 AI 批量生成测试用例:根据后台字段自动生成,覆盖各种边界
- 人工抽查易错场景:满减、每满减、限次、指定菜品这类最容易出问题的 case 重点核对,确认”成功”的结果到底有没有真成功
- 单点测试定位问题:把一张券拆成基础信息、券类型、优惠门槛、优惠规则、优惠次数等模块,用自然语言一个模块一个模块地试,哪里不对就针对性反复测
降低 AI 犯错的四条做法:
- 每一次错误都沉淀进案例库,沉淀完让 AI 自己复盘走一遍看还会不会再犯
- 一个会话只做 2~3 次创建,后续修改或新建就开新会话
- 批量数量控制在 100 张左右,准确率最高
- 果断删掉”自作聪明”的推理逻辑
项目迭代六阶段框架
| 阶段 | 版本 | 核心矛盾 | 关键动作 |
|---|---|---|---|
| 方向探索期 | V1~V3 | 让最简场景跑通 | 浏览器自动化→API 调用架构转型 |
| 踩坑高峰期 | V4~V6 | 参数地雷阵 | 静默覆盖、单位转换、null vs []、空字符串规则 |
| 多类型扩展期 | V7~V9 | 复杂度爆炸 | 每种券类型独立字段映射表和校验规则 |
| 工程化期 | V10~V12 | 从”能用”到”好用” | 缓存、心跳探测、结果写回文件 |
| 边界测试期 | V13~V15 | 从”好用”到”可靠” | 101 条边界测试用例,撞出隐藏规则 |
| 全覆盖标准化期 | V16~V17 | 收口 | 多 Sheet 标准 Excel 模板,67 条边界测试覆盖 34 字段 |
关键概念
- Skill — AI Skill 不是一次性产出,而是持续演化的知识体,V1 到 V17 从 50 行长到 1000+ 行
- API 参数校验 — 接口”假成功”是生产事故级隐患,必须建立”创建后校验”闭环
- 浏览器自动化 vs API 调用 — 架构级决策差异导致 30 倍性能差距
与其他素材的关联
- 与 2026-05-27-woshipm-yunshu-skill-practical-guide 的关联:两篇都讲 Skill 实战落地方法论,云舒侧重”先跑通再封装”四步法,本文侧重”17 版本迭代中的坑和工程化打磨”,互为补充
- 与 2026-06-02-woshipm-skill-creation-guide 的关联:那篇讲 Skill 编写的一般方法论,本文是一个极端具体的业务场景完整落地案例
- 与 2026-05-23-woshipm-enterprise-ai-implementation-methodology 的关联:本文是”企业 AI 落地”在餐饮 SaaS 场景的实战验证,方法论层面与”小步快跑三级落地法”高度吻合
原文精彩摘录
第一颗雷:静默覆盖。 某个门槛类型字段如果传错值,接口不会报错,但会悄悄把”满 30 减 5”变成”无门槛减 5”。接口返回成功,只有在后台手动查看时才会发现门槛没了。排查这个问题花了我整整一天——这是生产事故级别的”假成功”。
Skill 不是一次性产出,而是持续演化的知识体。 V1 的主文件只有 50 行,V17 的主文件加参考文档超过 1000 行。它不是设计出来的,是在实战中长出来的。一个好的 Skill,本质上是一个活的知识库。
接口文档永远是不完整的。真正的规则藏在服务端代码里,只能靠系统性的边界测试一个一个”撞”出来,然后沉淀进排障指南。
这件事最大的体会是,AI 落地一个具体业务场景,难的从来不是”调通接口”,而是把那些藏在文档之外、只有踩过才知道的隐性规则一条条挖出来,再让 AI 稳定地遵守它们。这是个体力活,也是个细致活,但跑通之后的效率提升,确实是数量级的。