历经17个版本,终于跑通并落地AI-skill

餐饮SaaS优惠券迁移场景中,用 17 个版本迭代打磨出一套 AI Skill,将手工建券从 3-5 小时压缩到 4.5 分钟,覆盖 5 种券类型、20+ 关键坑的工程化实战复盘。

基本信息

核心观点

  1. 架构决策决定 30 倍性能差距:作者最初用浏览器自动化(模拟键盘逐字符输入)建券,每张 30 秒以上且极度脆弱;V2 转向直接调用后台创建接口后,单条创建时间从 30 秒降到 1 秒——这是一个架构级决策,证明了”直接 API 调用”远优于”模拟 UI 操作”

  2. 接口”假成功”是生产事故级隐患:门槛类型字段传错值时接口不报错,悄悄把”满 30 减 5”变成”无门槛减 5”;金额单位不一致(接口接收”分”,Excel 写”元”)导致”5 元券”变成”5 分券”。这类”不报错但行为不符合预期”的坑比直接报错危险十倍

  3. 每种业务类型都是独立知识域:从代金券扩展到商品兑换券、折扣券、配送券时,每种都有自己的”专属脾气”——折扣券规则类型不能用默认值、配送券渠道和子类型缺任何一个都报同一模糊错误码、商品兑换券商品列表为空必败。不能用”大概差不多”去套

  4. AI Skill 是持续演化的知识体:V1 主文件 50 行,V17 主文件加参考文档超过 1000 行。它不是设计出来的,是在实战中长出来的。17 个版本、300+ 轮对话、400+ 次接口调用、20+ 关键坑一条条积累进排障指南

  5. 工程化细节决定体验断崖:商家上下文缓存(首次 30 秒→命中 0 秒)、创建前心跳探测(长对话连接静默断开防护)、结果写回文件(成功/失败/模板ID/错误原因),每个单拎都不是核心逻辑,缺一个体验就断崖式下降

实操内容保留

操作步骤

AI 验证三步法

  1. 让 AI 批量生成测试用例:根据后台字段自动生成,覆盖各种边界
  2. 人工抽查易错场景:满减、每满减、限次、指定菜品这类最容易出问题的 case 重点核对,确认”成功”的结果到底有没有真成功
  3. 单点测试定位问题:把一张券拆成基础信息、券类型、优惠门槛、优惠规则、优惠次数等模块,用自然语言一个模块一个模块地试,哪里不对就针对性反复测

降低 AI 犯错的四条做法

  • 每一次错误都沉淀进案例库,沉淀完让 AI 自己复盘走一遍看还会不会再犯
  • 一个会话只做 2~3 次创建,后续修改或新建就开新会话
  • 批量数量控制在 100 张左右,准确率最高
  • 果断删掉”自作聪明”的推理逻辑

项目迭代六阶段框架

阶段版本核心矛盾关键动作
方向探索期V1~V3让最简场景跑通浏览器自动化→API 调用架构转型
踩坑高峰期V4~V6参数地雷阵静默覆盖、单位转换、null vs []、空字符串规则
多类型扩展期V7~V9复杂度爆炸每种券类型独立字段映射表和校验规则
工程化期V10~V12从”能用”到”好用”缓存、心跳探测、结果写回文件
边界测试期V13~V15从”好用”到”可靠”101 条边界测试用例,撞出隐藏规则
全覆盖标准化期V16~V17收口多 Sheet 标准 Excel 模板,67 条边界测试覆盖 34 字段

关键概念

  • Skill — AI Skill 不是一次性产出,而是持续演化的知识体,V1 到 V17 从 50 行长到 1000+ 行
  • API 参数校验 — 接口”假成功”是生产事故级隐患,必须建立”创建后校验”闭环
  • 浏览器自动化 vs API 调用 — 架构级决策差异导致 30 倍性能差距

与其他素材的关联

原文精彩摘录

第一颗雷:静默覆盖。 某个门槛类型字段如果传错值,接口不会报错,但会悄悄把”满 30 减 5”变成”无门槛减 5”。接口返回成功,只有在后台手动查看时才会发现门槛没了。排查这个问题花了我整整一天——这是生产事故级别的”假成功”。

Skill 不是一次性产出,而是持续演化的知识体。 V1 的主文件只有 50 行,V17 的主文件加参考文档超过 1000 行。它不是设计出来的,是在实战中长出来的。一个好的 Skill,本质上是一个活的知识库。

接口文档永远是不完整的。真正的规则藏在服务端代码里,只能靠系统性的边界测试一个一个”撞”出来,然后沉淀进排障指南。

这件事最大的体会是,AI 落地一个具体业务场景,难的从来不是”调通接口”,而是把那些藏在文档之外、只有踩过才知道的隐性规则一条条挖出来,再让 AI 稳定地遵守它们。这是个体力活,也是个细致活,但跑通之后的效率提升,确实是数量级的。

相关页面