零基础PM用Claude Code 6周造出AI桌面应用:62,376次对话、8.5万行代码背后的完整方法论
零基础产品经理 Shawn 用 6 周 + 1 万元预算,通过 62,376 次 Claude Code 对话独立开发出 AI 桌面应用”阿布”,揭示了 PM 在 AI Coding 时代从”不懂技术”到”全链路交付”的完整路径——5 步工作流、多窗口并行、CLAUDE.md 数据飞轮、版本注册表测试、23 case eval 框架
基本信息
- 来源类型:网页文章
- 原文位置:raw/articles/2026-05-29-woshipm-shawn-abu-claude-code-6-weeks.md
- 原文 URL:https://www.woshipm.com/ai/6399524.html
- 消化日期:2026-05-29
- 作者:Shawn
- 字数:约 16000 字
核心观点
- PM 的 AI Coding 工作流核心比例反转:Claude 写代码 10 分钟,PM 想清楚需求要一个晚上——“想”的时间远超”写”的时间,这与传统开发完全相反。5 步循环(想清楚 → 需求描述 → Claude 写 → review → 测试验证)中,前三步都是 PM 的活
- 多窗口并行开发是最大提效点:同时开 3 个终端窗口跑独立 Claude Code session,分别开发 IM 适配层、安全规则、测试。前提条件是模块解耦 + 共享 CLAUDE.md + 最后统一测试。体验接近”技术负责人手下三个工程师同时干活”
- CLAUDE.md 是 PM 与 AI 之间的合同:273 行记录技术约束、命名规范、踩过的坑、分支纪律。每次踩坑更新一条,Claude 表现越来越好。从分支纪律(禁止在 main 上开发)到版本同步(三处版本号必须一起改),所有”正确废话”都是事故教出来的
- 版本注册表是测试中最有价值的实践:把所有存本地的数据模块登记在清单里,跑两个自动检查——版本号是否递增、是否有漏登记的数据类型。核心启发:“最好的测试不是测功能对不对,而是测我有没有忘了某件事”
- Eval 框架是 PM 在 AI 时代最值钱的基础设施:23 个评测 case 分 8 类,跨 provider(Claude / OpenAI / MiniMax)对比工具选择准确率。出题能力——描述用户场景、定义”做对了”、定义常见错误模式——恰恰是 PM 最擅长的
实操内容保留
代码/配置
CLAUDE.md 分支纪律条目(事故后写入):
禁止直接在 main 上开发或 push commit。所有工作在 dev 分支进行。
每次开始工作前必做:
1. git branch --show-current —— 确认当前分支
2. 如果在 main,先 git checkout dev
3. git pull origin dev —— 拉取最新代码
版本同步规则(发版翻车后写入):
三处版本号必须同步更新:
- package.json
- src-tauri/tauri.conf.json
- src-tauri/Cargo.toml
Eval 跨模型对比命令:
tsx src/eval/run.ts tool-selection --provider anthropic --model claude-sonnet-4-20250514
tsx src/eval/run.ts tool-selection --provider openai --model gpt-4oPrompt 模板
需求描述公式(User Story):
作为 [角色],我想要 [功能],以便 [价值]。 示例:“作为一个要整理发票的运营,我想要一个能批量读取发票图片并按日期重命名的功能,以便我每月不用手动处理 30 张发票。”
迭代分析三步法:
第一步:「先读一下这个文件,告诉我它现在的设计是什么、为什么这么做」 第二步:「如果我要加 XX 功能 / 改 XX 行为,有哪些方案?每个方案的利弊和风险是什么?」 第三步:确认分析正确后才让 Claude 开始写
Bug 修复后写测试:
「这个 bug 你刚才修了,请写一个最小的测试用例覆盖它」
/plan 模式:输入 /plan,Claude 进入”只规划不动手”模式,列方案分析利弊但不写代码
/insight 月度复盘:分析过去 30 天使用数据,生成”摩擦点在哪、CLAUDE.md 应该加什么规则”报告
/simplify 代码自审:写完大功能后扫描改过的代码,找复用机会和质量问题
/btw 旁白通道:不打断当前开发上下文的随手提问
/resume 恢复上下文:跨设备跨时间段恢复上一次会话
操作步骤
5 步开发循环:
- 想清楚——明确用户场景和使用链路(最花时间的一步)
- 写需求描述——用 User Story 公式
- 让 Claude 写代码
- 人工 review——2-3 轮(逻辑/边界/耦合/安全)
- 跑测试 + 真机验证
发版清单:
- 确保 dev 分支 build + lint + test 全绿
- 三处版本号同步更新
- git checkout main && git merge dev
- git tag vX.Y.Z
- git push origin main —tags
- 在 GitHub 创建 Release
浏览器功能三轮开发法:
- 第一轮:Chrome 插件(伸进浏览器的”手”)
- 第二轮:桥接程序(MCP 协议,封装 17 个操作)
- 第三轮:Skill 说明书(教 AI 什么时候用工具)
UI 审美三法:
- 贴截图(Linear / Vercel / Notion 风格参照)
- 定 design token(写进 CLAUDE.md:主色/背景/文字/圆角)
- 指定参考库(shadcn / Apple HIG)
关键概念
- Claude Code — Shawn 的核心开发工具,62,376 次对话交互
- Vibe Coding — 本文是 Vibe Coding 方法论在真实产品开发中的最大规模实战验证
- 独立开发者 — 非技术背景 PM 独立完成从设计到发版的全链路
- MCP 模型上下文协议 — 阿布的浏览器操控通过 MCP 接入,封装 17 个操作
- Skill — 重复性 SOP 沉淀为 Markdown 格式的技能卡片,AI 自动识别何时激活
- AI Agent 智能体 — 阿布的多 Agent 编排:主 Agent 拆任务给子 Agent 并行执行
- CLAUDE.md 合同文件 — 项目根目录的行为规范文件,每次 Claude 工作前先读
- Design Token — 颜色/间距/圆角/字体预定义写入 CLAUDE.md,AI 自动保持视觉一致
- Computer Use — AI 看屏幕点鼠标敲键盘的能力,阿布中配 5 层安全防御
- Eval 框架 — 自建 23 case 评测系统,跨 provider 对比工具选择准确率
- 版本注册表 — 数据模块登记+版本递增检查+漏登记扫描的三道锁机制
与其他素材的关联
- 与 2026-05-27-pm-vibe-coding-5-products 的关系:Iris 的 Vibe Coding 方法论在本文得到最大规模验证——Iris 做了 5 个产品验证”先 PRD 后编码”原则,Shawn 用 6 周、8.5 万行代码、62,376 次对话将其推到极致。Shawn 的 5 步循环(想清楚 → 需求 → 写 → review → 测试)是 Iris 四步工作流(调研三问 → 苏格拉底 PRD → 原型三阶段 → Kickoff)在更长周期、更大规模项目上的实践变体
- 与 2026-05-27-woshipm-codex-product-dev-lessons 的关系:四月用 Codex 独立开发 macOS 番茄时钟 App 的心得与 Shawn 高度一致——“一句话让 AI 写代码必然翻车”、AI 卡壳时需要人工指引方向。但 Shawn 的规模远大于四月(8.5 万行 vs 单个 App),给出了更完整的工程纪律(版本注册表、5 条纪律、eval 框架)
- 与 2026-05-28-woshipm-ai-workshop-multi-agent-collaboration 的关系:麦克先生构建 AI Workshop 多 Agent 共享工作区,Shawn 在阿布内部实现了多 Agent 编排——主 Agent 拆任务给子 Agent 并行执行。两者都验证”管理 AI 比使用 AI 更重要”的判断
- 与 2026-05-27-pm-vibe-coding-5-products 的 CLAUDE.md 数据飞轮关系:Iris 提出
#指令机制(在输入框打规则自动写入 CLAUDE.md),Shawn 用 273 行 CLAUDE.md 证明这个飞轮在 6 周大规模项目中的实际效果——每次踩坑更新一条,Claude 表现越来越好
原文精彩摘录
我花在”想”上的时间,比花在”写”上多得多。Claude 写一个功能可能 10 分钟,但我想清楚”这个功能到底要解决什么问题、用户使用链路是什么”可能要一个晚上。这个比例跟传统开发完全反过来了。
那一晚模型试图打开我的钥匙串。阿布有一个 Computer Use 功能,模型能看屏幕、点鼠标。某天晚上我在 dev 环境跑测试,模型截屏看了一圈,然后在 Spotlight 搜索框里输入了”Keychain Access”。那一瞬间我意识到,模型完全有能力打开我电脑上任何 app。第二天我从早上写到深夜,连发 5 个 commit,一次性加了敏感 app 黑名单、危险按键拦截、全局停止快捷键、会话超时。
这个做法的核心启发是:最好的测试不是测”功能对不对”,而是测”我有没有忘了某件事”。
PM 在 AI 时代真正不可替代的能力,是替模型定义”什么叫做对了”。
你不需要学会编程,你需要学会跟一个会编程的伙伴说话。