零基础PM用Claude Code 6周造出AI桌面应用：62,376次对话、8.5万行代码背后的完整方法论

零基础产品经理 Shawn 用 6 周 + 1 万元预算，通过 62,376 次 Claude Code 对话独立开发出 AI 桌面应用”阿布”，揭示了 PM 在 AI Coding 时代从”不懂技术”到”全链路交付”的完整路径——5 步工作流、多窗口并行、CLAUDE.md 数据飞轮、版本注册表测试、23 case eval 框架

基本信息

来源类型：网页文章
原文位置：raw/articles/2026-05-29-woshipm-shawn-abu-claude-code-6-weeks.md
原文 URL：https://www.woshipm.com/ai/6399524.html
消化日期：2026-05-29
作者：Shawn
字数：约 16000 字

核心观点

PM 的 AI Coding 工作流核心比例反转：Claude 写代码 10 分钟，PM 想清楚需求要一个晚上——“想”的时间远超”写”的时间，这与传统开发完全相反。5 步循环（想清楚 → 需求描述 → Claude 写 → review → 测试验证）中，前三步都是 PM 的活
多窗口并行开发是最大提效点：同时开 3 个终端窗口跑独立 Claude Code session，分别开发 IM 适配层、安全规则、测试。前提条件是模块解耦 + 共享 CLAUDE.md + 最后统一测试。体验接近”技术负责人手下三个工程师同时干活”
CLAUDE.md 是 PM 与 AI 之间的合同：273 行记录技术约束、命名规范、踩过的坑、分支纪律。每次踩坑更新一条，Claude 表现越来越好。从分支纪律（禁止在 main 上开发）到版本同步（三处版本号必须一起改），所有”正确废话”都是事故教出来的
版本注册表是测试中最有价值的实践：把所有存本地的数据模块登记在清单里，跑两个自动检查——版本号是否递增、是否有漏登记的数据类型。核心启发：“最好的测试不是测功能对不对，而是测我有没有忘了某件事”
Eval 框架是 PM 在 AI 时代最值钱的基础设施：23 个评测 case 分 8 类，跨 provider（Claude / OpenAI / MiniMax）对比工具选择准确率。出题能力——描述用户场景、定义”做对了”、定义常见错误模式——恰恰是 PM 最擅长的

实操内容保留

代码/配置

CLAUDE.md 分支纪律条目（事故后写入）：

禁止直接在 main 上开发或 push commit。所有工作在 dev 分支进行。

每次开始工作前必做：
1. git branch --show-current —— 确认当前分支
2. 如果在 main，先 git checkout dev
3. git pull origin dev —— 拉取最新代码

版本同步规则（发版翻车后写入）：

三处版本号必须同步更新：
- package.json
- src-tauri/tauri.conf.json
- src-tauri/Cargo.toml

Eval 跨模型对比命令：

tsx src/eval/run.ts tool-selection --provider anthropic --model claude-sonnet-4-20250514
tsx src/eval/run.ts tool-selection --provider openai --model gpt-4o

Prompt 模板

需求描述公式（User Story）：

作为 [角色]，我想要 [功能]，以便 [价值]。示例：“作为一个要整理发票的运营，我想要一个能批量读取发票图片并按日期重命名的功能，以便我每月不用手动处理 30 张发票。”

迭代分析三步法：

第一步：「先读一下这个文件，告诉我它现在的设计是什么、为什么这么做」第二步：「如果我要加 XX 功能 / 改 XX 行为，有哪些方案？每个方案的利弊和风险是什么？」第三步：确认分析正确后才让 Claude 开始写

Bug 修复后写测试：

「这个 bug 你刚才修了，请写一个最小的测试用例覆盖它」

/plan 模式：输入 /plan，Claude 进入”只规划不动手”模式，列方案分析利弊但不写代码 /insight 月度复盘：分析过去 30 天使用数据，生成”摩擦点在哪、CLAUDE.md 应该加什么规则”报告 /simplify 代码自审：写完大功能后扫描改过的代码，找复用机会和质量问题 /btw 旁白通道：不打断当前开发上下文的随手提问 /resume 恢复上下文：跨设备跨时间段恢复上一次会话

操作步骤

5 步开发循环：

想清楚——明确用户场景和使用链路（最花时间的一步）
写需求描述——用 User Story 公式
让 Claude 写代码
人工 review——2-3 轮（逻辑/边界/耦合/安全）
跑测试 + 真机验证

发版清单：

确保 dev 分支 build + lint + test 全绿
三处版本号同步更新
git checkout main && git merge dev
git tag vX.Y.Z
git push origin main —tags
在 GitHub 创建 Release

浏览器功能三轮开发法：

第一轮：Chrome 插件（伸进浏览器的”手”）
第二轮：桥接程序（MCP 协议，封装 17 个操作）
第三轮：Skill 说明书（教 AI 什么时候用工具）

UI 审美三法：

贴截图（Linear / Vercel / Notion 风格参照）
定 design token（写进 CLAUDE.md：主色/背景/文字/圆角）
指定参考库（shadcn / Apple HIG）

关键概念

Claude Code — Shawn 的核心开发工具，62,376 次对话交互
Vibe Coding — 本文是 Vibe Coding 方法论在真实产品开发中的最大规模实战验证
独立开发者 — 非技术背景 PM 独立完成从设计到发版的全链路
MCP 模型上下文协议 — 阿布的浏览器操控通过 MCP 接入，封装 17 个操作
Skill — 重复性 SOP 沉淀为 Markdown 格式的技能卡片，AI 自动识别何时激活
AI Agent 智能体 — 阿布的多 Agent 编排：主 Agent 拆任务给子 Agent 并行执行
CLAUDE.md 合同文件 — 项目根目录的行为规范文件，每次 Claude 工作前先读
Design Token — 颜色/间距/圆角/字体预定义写入 CLAUDE.md，AI 自动保持视觉一致
Computer Use — AI 看屏幕点鼠标敲键盘的能力，阿布中配 5 层安全防御
Eval 框架 — 自建 23 case 评测系统，跨 provider 对比工具选择准确率
版本注册表 — 数据模块登记+版本递增检查+漏登记扫描的三道锁机制

与其他素材的关联

与 2026-05-27-pm-vibe-coding-5-products 的关系：Iris 的 Vibe Coding 方法论在本文得到最大规模验证——Iris 做了 5 个产品验证”先 PRD 后编码”原则，Shawn 用 6 周、8.5 万行代码、62,376 次对话将其推到极致。Shawn 的 5 步循环（想清楚 → 需求 → 写 → review → 测试）是 Iris 四步工作流（调研三问 → 苏格拉底 PRD → 原型三阶段 → Kickoff）在更长周期、更大规模项目上的实践变体
与 2026-05-27-woshipm-codex-product-dev-lessons 的关系：四月用 Codex 独立开发 macOS 番茄时钟 App 的心得与 Shawn 高度一致——“一句话让 AI 写代码必然翻车”、AI 卡壳时需要人工指引方向。但 Shawn 的规模远大于四月（8.5 万行 vs 单个 App），给出了更完整的工程纪律（版本注册表、5 条纪律、eval 框架）
与 2026-05-28-woshipm-ai-workshop-multi-agent-collaboration 的关系：麦克先生构建 AI Workshop 多 Agent 共享工作区，Shawn 在阿布内部实现了多 Agent 编排——主 Agent 拆任务给子 Agent 并行执行。两者都验证”管理 AI 比使用 AI 更重要”的判断
与 2026-05-27-pm-vibe-coding-5-products 的 CLAUDE.md 数据飞轮关系：Iris 提出 # 指令机制（在输入框打规则自动写入 CLAUDE.md），Shawn 用 273 行 CLAUDE.md 证明这个飞轮在 6 周大规模项目中的实际效果——每次踩坑更新一条，Claude 表现越来越好

原文精彩摘录

我花在”想”上的时间，比花在”写”上多得多。Claude 写一个功能可能 10 分钟，但我想清楚”这个功能到底要解决什么问题、用户使用链路是什么”可能要一个晚上。这个比例跟传统开发完全反过来了。

那一晚模型试图打开我的钥匙串。阿布有一个 Computer Use 功能，模型能看屏幕、点鼠标。某天晚上我在 dev 环境跑测试，模型截屏看了一圈，然后在 Spotlight 搜索框里输入了”Keychain Access”。那一瞬间我意识到，模型完全有能力打开我电脑上任何 app。第二天我从早上写到深夜，连发 5 个 commit，一次性加了敏感 app 黑名单、危险按键拦截、全局停止快捷键、会话超时。

这个做法的核心启发是：最好的测试不是测”功能对不对”，而是测”我有没有忘了某件事”。

PM 在 AI 时代真正不可替代的能力，是替模型定义”什么叫做对了”。

你不需要学会编程，你需要学会跟一个会编程的伙伴说话。

个人知识库

探索

2026-05-29-woshipm-shawn-abu-claude-code-6-weeks