AI 编程开发全景

从 IDE 集成到 AI 应用开发，从工具使用到框架架构的完整知识体系

核心观点

多工具组合协作是趋势：单一模型不够用，未来是人类指挥多个 AI 工具分工协作，像管理团队一样管理 AI，“一个人就是一家公司”
本地部署 + 云端混合方案：简单代码用本地模型保证数据安全和速度，复杂任务调用云端大模型，成本和隐私兼顾
编程方式正在被重新定义：从写代码 → 改代码 → 提需求 → 验证迭代，开发者的工作重心从具体实现转向需求定义和质量把控
“迭代开发”比”一次完美”更重要：第一版难看功能简陋没关系，AI 时代最核心的能力是快速把想法变成可运行的原型，然后持续迭代
未来程序员 = AI 操控师：把自己的经验和 AI 融合，驾驭 AI 更快完成工作，而不是被 AI 淘汰
Claude Code Skill 装太多会降触发准确率：装 30+ 个 Skill 实测触发准确率掉到 50% 以下，官方建议 20-30 个且贴自己工作流。筛选唯一标准”能不能替我每天省掉一步手动动作”，注意”Setup Porn”陷阱——来源：2026-05-11-claude-code-6-skills
AI 编程正在从提示词技巧升级为上下文资产管理：Claude Code、Codex、Manus 等 harness 的差异不如 agents.md、memory.md、Skill 文件与 MCP 连接方式重要；真正可迁移的生产力来自上下文、记忆、工具和技能组合成的数字团队系统——来源：2026-05-13-ai-agent-productivity-20x
Skills 已成为跨 Agent 平台的通用协议：从 2025-10-16 Anthropic 首发到 2025-12-18 开放标准，Codex/Cursor/OpenClaw/Hermes 等十余个 Agent 全面支持，Skills 成为 AI 时代相当于 npm 的技能分发标准——来源：2026-05-20-agent-skills-intro-claude-opus
description 字段是 Skills 触发的唯一门控：90% 的 Skill 未被触发是因为 description 不够具体；黄金写法：[功能]+[执行动作]+[触发关键词]，用祈使句，不超过 500 字；含 3 条约束 + 1 个输出示例可使稳定性提升 60%（Anthropic 内部数据）——来源：2026-05-20-agent-skills-intro-claude-opus
Skill 的标准工程骨架是 SKILL.md 驱动、资源目录按需加载：SKILL.md 负责总控，scripts/ 放可执行代码，references/ 放规范文档，assets/ 放模板与素材；真正的工程优势不只是”会触发”，而是能靠渐进式披露把大体量规范拆成随取随用的知识层，既保持约束密度，又不把上下文一次性塞满——来源：2026-05-21-agent-skills-woshipm
多 Agent 并存时 Skill 应统一中央管理：Claude Code、Cursor、OpenClaw 等每个 Agent 都有独立 Skills 文件夹，导致重复安装、版本漂移、不知道自己有什么 Skill。解决方案是用软链接把所有 Agent 的 skills 目录统一指向一个 SharedSkills 中央文件夹——改一处全部同步，新 Skill 自动对所有 Agent 生效。更深层的理由：Skill 是 AI 时代里少有的确定性资产，其价值曲线与 AI 进化轨道独立，需要稳定基础设施沉淀和进化——来源：2026-05-27-woshipm-central-skill-symlink
写 Skill 的核心方法论是”先跑通再封装”而不是”先设计”：Agent 任务复杂度涉及脚本、工具调用、文件读取、subagent 分工，很多流程很难一开始就完整设计。云舒”上百个 Skill”的实战经验给出四步作业流程：跑通（和 AI 定目标、跑出真实场景）→ 复盘（讨论正向 vs 负向流程、哪些应该沉淀）→ 封装（让 AI 基于复盘结果做封装）→ 回溯测试（开新对话验证稳定性）。本质是从凭想象设计走向从实践中提炼——来源：2026-05-27-woshipm-yunshu-skill-practical-guide
Skill 的三层渐进式加载机制 + 熟悉/不熟悉领域元判断：Agent 调用 Skill 不是一上来就把全部内容塞给模型，而是分层加载：第一层 name+description（触发判断）→ 第二层 SKILL.md（主流程）→ 第三层 references/scripts/assets（按需补充）。判断一个场景能否 Skill 化：熟悉领域走经验蒸馏；不熟悉领域看能否建立回溯验证机制（六爻占卜失败 vs 编程自动化测试成功）——来源：2026-05-27-woshipm-yunshu-skill-practical-guide
Vibe Coding 把 AI 编程的门槛从”会写代码”挪到”讲得清需求”：产品经理不写代码、用自然语言 + 产品思维驱动 AI 完成从调研到上线的全流程，五个产品+两个企业级 0→1 全程跑通。关键不是工具怎么用，是苏格拉底式 PRD 追问法（AI 一次一问往深处挖隐含需求）+ 原型三阶段顺序（先定设计语言→做最难一页→基准铺开）+ CLAUDE.md 入职手册的数据飞轮机制（# 指令沉淀个人规则，目标 150 行）。“模糊的需求，必然产生模糊的产品”是核心反面教训——来源：2026-05-27-pm-vibe-coding-5-products
Trae IDE + Skill 可构建本地化 AI 阅读助手：字节 Trae IDE 无需科学上网，通过 Prompt 定义 Skill 即可实现完整的个性化读书工作流——双层偏好建模（历史标注 + 主动申报）→ 三阶阅读解析（全书概览 → 章节逻辑 → 逐章精读）→ PDF 报告导出。本地部署解决了云端读书工具的数据护城河问题，文件大小基本不设限，扫描版 PDF 也能处理——来源：2026-05-27-woshipm-personalized-ai-reading-assistant
Codex 从设计素材工具升级为完整产品开发平台：非技术背景 AI PM 用 Codex + GPT-5.5 半天开发 macOS 原生 App（番茄时钟”专注时刻”），验证 Codex 在产品级代码开发场景的可行性。核心工作流是”手搓原型 → Gemini 生成 PRD → PRD + 设计稿图片一起丢给 Codex”——上下文越完整，AI 输出越接近预期。AI 卡壳时（macOS 液态玻璃效果），用另一个 AI 查资料整理线索再引导主 AI 查官方文档，10 分钟解决——来源：2026-05-27-woshipm-codex-product-dev-lessons
AGENTS.md 是上下文资产体系中成本最低但收益最高的一个：5 分钟写一份 60-100 行的项目规范文件（技术栈+目录+编码规范+Never 规则+协作约定），AI 代码规范遵循率从 60% 飙升到 95%+，一次通过率从 40% 提升到 80%+，每次手动修正时间从 8 分钟降到 1 分钟。核心机制是”Never 规则持续演进”——每次 AI 犯错就加一条禁令，11 条规则全是真实踩坑积累。AGENTS.md 在 Claude Code 生态中叫 CLAUDE.md，与 DESIGN.md（视觉规范）、AGENTS.local.md（个人偏好）组成三文件体系——来源：2026-05-28-agents-md-coding-standard
多 Agent 协作需要”共同工作场”而非各自独立的记忆：同时使用 Codex（主力 Agent，复杂任务协调）、Claude Code（代码工程和内容创作）、WorkBuddy（日常任务）的用户，面临的核心问题是”它们经常彼此不知道对方做过什么”——不是 AI 不够聪明，而是缺少共同工作场。AI Workshop 用”共享核心文档 + 各助手专属入口”的设计，将 USER.md、WORKFLOW.md、CURRENT.md 作为共同事实源，各 AI 的入口文件只做适配和指引。关键设计是”轻量启动，按需加深”——借鉴 Skill 调用的渐进式披露思路，日常任务只读 3 份文件，跨 Agent 协作再加载制度文档，具体项目先查 PROJECTS.md 索引再深入，类似图书馆检索系统——来源：2026-05-28-woshipm-ai-workshop-multi-agent-collaboration
LLM Wiki 的四层架构揭示了”知识编译”的工程路径：本地知识库不是 RAG 的简单替代，而是四层分工——用户层（决定读什么）→ LLM 层（按 CLAUDE.md 行为规范执行 ingest/query/lint）→ CLI 层（bin/wiki 语义命令封装 qmd 检索引擎，避免 LLM 直接操作底层参数）→ 系统层（raw 只读 + wiki 可写 + shared 跨域 + qmd 索引）。关键设计：CLAUDE.md 不是配置文件而是行为规范手册（六维内容），长文档不读全文而是用 search-chunks 按块检索+WIP 续传（处理完一个主题就落盘避免上下文爆），六域分类按”命题”分不按”学科”分——来源：2026-05-28-woshipm-llm-wiki-qmd-architecture
Codex 官方 11 条高阶技巧定义了”AI 工作助理”的操作范式：OpenAI Codex 团队成员系统性梳理了把 Codex 从”写代码工具”升级为”持续运转的 AI 工作助理”的六大关键能力——① Durable Threads（长期对话串）让决策历史和工作进度跨会话保留，核心洞察是”真正耗时的是重新交代背景”；② Steering（实时修正方向）+ Queuing（排入下一步不打断当前任务）双机制实现连续工作流；③ 四层工具扩展（in-app browser → Chrome Extension → Computer Use → MCP servers）按复杂度逐级升级；④ Goals 将任务目标定义为”可验证的完成条件”而非模糊指令；⑤ Side Panel 在同一界面预览 PDF/表格/简报等产出物；⑥ Shared Memory 用 Obsidian vault/Git/Dropbox 持久存储长期工作脉络，Codex Memories 作为辅助回忆层——来源：2026-05-28-codex-11-tips
零基础 PM 用 Claude Code 6 周独立交付 8.5 万行代码的完整产品：Shawn 用 62,376 次对话验证了”不写代码的 PM + Claude Code = 能发版的完整产品”，沉淀了 5 步工作流（想清楚→User Story→Claude 写→review→测试，比例反转：PM 想 1 晚 > Claude 写 10 分钟）+ 多窗口并行开发 + 273 行 CLAUDE.md 数据飞轮 + 版本注册表测试（测完整性而非正确性）+ 23 case eval 框架（PM 出题+跨 provider 对比）。Computer Use 5 层安全防御和”模型试图打开钥匙串”的教训，重新定义了 AI 编程的安全底线——来源：2026-05-29-woshipm-shawn-abu-claude-code-6-weeks
规格驱动 + AI 生成的两段式开发是搭建生产级 RAG 的有效范式：先用 Claude Code 输出约 440 行的实现方案文档（含架构、目录树、LangGraph 十节点状态机、API 路由与数据模型），再按方案逐模块生成 Monorepo 代码。配合通义千问（qwen3.6-plus 对话 + text-embedding-3-large 向量）+ Milvus 混合检索，100 元人民币搭出包含评测面板的生产级 RAG 平台。核心教训：真正的敌人是静默失败——14 个 Bug 中最耗时的不是明确报错，而是检索 0 条、向量维度 silently mismatch、LangChain baseUrl 配置被忽略。Embedding 维度一致性、相似度阈值实测、API 兼容写法是上线前三必查项——来源：2026-05-31-woshipm-100rmb-production-rag
Vibe Coding 的天花板可通过 7 Agent 软件工厂突破：当单一 AI 对话要求同时扮演 6+ 角色时，错误在混乱中累积（“第 1 天像魔法，第 30 天监督时间超过自己写代码”）。解决方案是把工作拆给 7 个专责 Agent（研究员→故事撰写者→规格撰写者→后端建造者→前端建造者→测试验证者→验证员），每个拥有单一职责、干净上下文窗口和严格工具权限边界。3 个人类审核点（核准故事→核准简报→核准 PR）取代全程监督，人类专注于判断力环节。核心隐性收益：Agent 职责隔离天然防控上下文漂移——错误假设被限制在单个 Agent 内，不会传播——来源：2026-05-31-blocktempo-7-agents-software-factory
Playwright CLI 接入 Claude Code 实现浏览器自动化是 Token 效率最优方案：Chrome DevTools MCP 每个工具描述很长，占用大量上下文 Token；Playwright CLI 由 Claude Code 直接调用脚本，Token 消耗大幅降低。三大实战场景验证可行性：QA 自动测试闭环（AI 写应用→Playwright 测试→发现 Bug→自动修复→重测）、网页信息抓取（遇到反爬自动切换搜索引擎）、登录态社区自动化（persistent profile 保持 Cookie，经 4-5 次迭代后脚本稳定）。核心洞察是”脚本迭代模式”——首次运行几乎不可能完美，但 AI 能从截图和错误中自动分析并更新脚本。浏览器自动化脚本可封装为 Skill 配合定时任务实现全自动执行——来源：2026-06-03-youtube-claude-code-playwright-browser-automation
Codex 与 Claude Code 的差异本质是”执行者”与”创意伙伴”的角色分化：三个同 prompt 实验（研究报告 PDF、落地页、Dashboard）量化验证——Claude Code 在 Dashboard 任务上 2 分钟 / 283k tokens 完成（Codex 8 分钟 / 1.64M tokens），前端设计质量明显领先（暗色模式、动画、字体质感）；Codex 在研究型任务上更快更省（2.8M tokens vs 4.7M tokens），output tokens 始终精简 2-5 倍导致更慢触达订阅额度上限。两者功能高度重叠（都支持 MCP、hooks、子代理、Skills、work trees），真正差异在于定制化深度（Claude Code 30 个 hook 事件 vs Codex 6 个）和平台政策（OpenAI 公开支持第三方 Agent 框架用 ChatGPT 订阅，Anthropic 明确禁止）。最佳策略不是二选一，而是用 Claude Code 做规划/头脑风暴/复杂前端，用 Codex 做执行/review/研究密集型任务——来源：2026-06-03-youtube-codex-vs-claude-code-comparison
Hermes Agent 通过”Cron + Telegram + 自我进化”三机制重新定义个人 AI 助手定位：与 Claude Code（深度编码主力，90% 知识工作）和 OpenClaw（跨 SaaS 工作流编排）形成三分格局——Claude Code 是桌前驾驶舱，Hermes 是移动遥控器。五支柱架构（Memory / Skills / Soul / Cron / Self-Improving Loop）让 Agent 随使用越来越懂用户；Cron 是核心差异化能力，Claude Code Routines 每天限 15 次，Hermes 无限制，实测 YouTube 评论监控（每 10 分钟检查 12 小时）、nightly GitHub sync、server security sweeps 等。多 Agent 扩展遵循”是否需要独立记忆/权限/调度”决策树，用 Docker 容器隔离防止 Key 串用——来源：2026-06-03-hermes-agent-setup-guide
Agent 工程的瓶颈不在模型，在环境——三层认知翻转决定 Agent 能否上生产：半年研究 Anthropic/OpenAI/LangChain 工程复盘后提炼的三层障碍。第一层”看不见”：早期 Coding Agent 写完代码就停了不会验证，接入 Chrome DevTools Protocol 后单次任务自主工作超 6 小时——真正的杠杆在 Prompt 之外的环境感知基础设施。第二层”知识放错了地方”：把所有规则塞进超长 agents.md 会适得其反，正确做法是”给 Agent 一张地图而不是一本千页说明书”——小 agents.md 当目录，详细知识拆到子目录按需读取。第三层”多 Agent 拆分幻觉”：按人类组织结构拆分 Agent 是最低效方式（反复解释背景消耗的 Token 超过干活的 Token），正确拆分以上下文为中心——只有当两个任务的上下文可以真正隔离时拆分才有意义。不在仓库里的东西对 Agent 就不存在——来源：2026-06-10-agent-engineering-guide

素材汇总

素材	核心贡献	详见
Kimi K2.5 视频转代码实战	Video2Code 录视频即需求 + Image2Code 截图精修 + Kimi Code 终端 Agent，半小时跑通品牌独立站	2026-06-10-kimi-k25-video2code-frontend
Agent 工程完全指南	三层认知翻转：Agent 看不见环境 / 知识放错地方 / 多 Agent 拆分幻觉，瓶颈在环境不在模型	2026-06-10-agent-engineering-guide
历经17个版本 AI Skill 落地	17版本迭代打磨AI Skill：浏览器→API架构转型、假成功校验闭环、5种券类型独立知识域、工程化细节决定体验断崖	2026-06-09-ai-skill-coupon-landing
天气MCP三维度评测	POI定位精度·100天超长预报·token成本仅墨迹1/5，揭示垂直MCP从接口封装升级为数据深度竞争	2026-06-09-woshipm-weather-mcp-comparison
Codex vs Claude Code 深度对比	三场同prompt实验量化：Dashboard 2min vs 8min、output tokens 精简2-5倍、执行者vs创意伙伴角色分化	2026-06-03-youtube-codex-vs-claude-code-comparison
Hermes Agent 从零搭建完整教程	五支柱架构+Cron核心差异化+Telegram移动办公+VPS部署+多Agent扩展决策树	2026-06-03-hermes-agent-setup-guide
7 Agent 软件工厂	7 个专责 Agent + 3 个人类审核点 + 工具权限隔离 + 上下文漂移防控	2026-05-31-blocktempo-7-agents-software-factory
Claude Code + Playwright 浏览器自动化	Playwright CLI Token效率优势 + QA自动测试闭环 + 登录态社区自动化 + Skill封装定时执行	2026-06-03-youtube-claude-code-playwright-browser-automation
Codex 桌面版 + Ollama 本地模型	Ollama v0.24.0 一个指令接入本地模型，免费无限使用 Codex，5 款推荐模型	2026-06-02-koc-ollama-codex-local-model
零基础PM用Claude Code 6周造出AI桌面应用	5步工作流+多窗口并行+CLAUDE.md数据飞轮+版本注册表+eval框架	2026-05-29-woshipm-shawn-abu-claude-code-6-weeks
一百块搭出生产级 RAG	规格驱动两段式开发+Milvus混合检索+LangGraph十节点+静默失败排查	2026-05-31-woshipm-100rmb-production-rag
OpenAI Codex 團隊成員分享：11 個技巧	Codex 官方团队 11 条高阶使用框架：Durable Threads / Steering+Queuing / Goals / Shared Memory	2026-05-28-codex-11-tips
一份 AGENTS.md，让 AI 代码规范率从 60% 飙升到 95%	AGENTS.md 项目规范文件 + Never 规则演进机制 + 三文件体系	2026-05-28-agents-md-coding-standard
本地多Agent协作系统 AI Workshop	多 Agent 共享工作区机制（USER.md + WORKFLOW.md + CURRENT.md）	2026-05-28-woshipm-ai-workshop-multi-agent-collaboration
LLM Wiki实战篇：少花token，多沉淀知识	qmd 四层架构 + CLAUDE.md 行为规范 + search-chunks 按块检索	2026-05-28-woshipm-llm-wiki-qmd-architecture
从0开始vibe coding	PM 不写代码用自然语言驱动 AI 完成从调研到上线全流程	2026-05-28-woshipm-vibe-coding-cold-start-offline
用Codex独立开发产品	Codex + GPT-5.5 半天开发 macOS 原生 App，上下文越完整越接近预期	2026-05-27-woshipm-codex-product-dev-lessons
为所有 Agent 统一 Skill 库	软链接中央管理 SharedSkills，Skill 是跨 Agent 的确定性资产	2026-05-27-woshipm-central-skill-symlink
Skill 实操教程	”先跑通再封装”四步法 + 元判断模型（熟悉/不熟悉领域）	2026-05-27-woshipm-yunshu-skill-practical-guide
PM 一个人跑通五个产品	Vibe Coding 苏格拉底式 PRD 追问法 + CLAUDE.md 入职手册数据飞轮	2026-05-27-pm-vibe-coding-5-products
Trae IDE 构建本地化 AI 阅读助手	双层偏好建模 + 三阶阅读解析 + 数据主权	2026-05-27-woshipm-personalized-ai-reading-assistant
Agent Skills 万字干货	Skills 标准手册 + 渐进披露 + description 黄金公式	2026-05-20-agent-skills-intro-claude-opus
Agent Skills 全景教程	SKILL.md 驱动工程骨架 + 三层渐进式加载	2026-05-21-agent-skills-woshipm
Agent harness + 上下文资产	AI 编程从提示词技巧升级为上下文资产管理	2026-05-13-ai-agent-productivity-20x
Claude Code Skills 精选	30+ Skill 触发准确率掉到 50% 以下，建议控制 20-30 个	2026-05-11-claude-code-6-skills

AI 核心概念体系

16 个关键概念一网打尽

类别	核心概念
基础概念	大模型、温度、提示词、Token、API Key
模型技术	模型蒸馏、多模态、上下文信息
高级技术	RAG 检索增强生成、Embedding、思维链 CoT、ReAct
系统架构	智能体 Agent、智能体工作流、MCP

RAG 标准工作流：

企业文档 → Embedding 向量化 → 向量数据库存储
                                     ↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答

三大 AI 开发框架

场景	推荐框架	核心优势
Java 企业应用	Spring AI	无缝集成 Spring 生态
智能体开发	LangChain4j	完整 Agent 工具链
复杂工作流	LangGraph	图结构可视化编排

Spring AI

官网：https://docs.spring.io/spring-ai/reference/getting-started.html
能力：快速对接大模型、保存会话上下文、对接向量数据库实现 RAG
优势：Java 程序员首选，和主流 Spring 无缝集成，上手难度低

LangChain4j

官网：https://docs.langchain4j.dev/intro
能力：提供大量现成方法提高 AI 应用开发效率
优势：更灵活，更适合开发复杂的智能体

学习建议：两个都要学，先从 Spring AI 学起，再学 LangChain4j 会更简单。

LangGraph

特点：用图的结构组织和管理 AI 工作流
适用：构建有状态、多代理的企业级 AI 大项目
比喻：多个 AI 智能体分工协作（文字、图片、排版），LangGraph 是项目负责人安排工作流程

核心技术栈矩阵

VSCode 生态

方案	模型来源	特点	成本
Roo Code + DeepSeek API	云端	多模型兼容，灵活切换	API 按量计费
Roo Code + Ollama	本地	数据安全，隐私保护	免费
通义灵码	阿里云	编程场景优化，中文好	免费

PyCharm 生态

方案	实现	特点
CodeGPT + Ollama + deepseek-r1:1.5b	本地 1.5b 参数模型	1-2 秒响应，零成本
CodeGPT + 硅基流动 DeepSeek API	云端	更好的代码质量

独立 AI 编程 Agent

工具	代表功能
Cursor	最早的全文件 AI 编程 IDE，Agent 模式
Cline (VSCode/VS)	多文件自动修改工程级 Agent

AI 编程高级技巧

Prompt 质量决定输出质量

基本优化四要素：

明确 AI 的角色定位
提供具体的细节要求
拆解任务
提供示例

进阶技巧：AI 生成高质量 Prompt

先把自己手写的 Prompt 扔给其他 AI
让它帮你生成一段质量更高、结构化的需求文档
再喂给 Cursor 去生成网站

完整需求文档五大要素：

明确项目背景和目标
详细列出功能要求和技术栈
指定代码风格和架构模式
提供示例和参考资料
明确限制条件和边界场景

复杂项目：三步迭代法

第一步：生成基础可运行框架

用 Cursor Agent 模式 + 高级推理模型
目标：生成基础项目框架，确保能跑起来就行
暂时不管功能好不好用

第二步：逐个实现核心功能

划分模块和功能点
依次向 AI 提问
逐步实现核心功能并验证可用性

第三步：优化实现细节

在不影响功能的前提下
优化代码结构、性能、可读性

三大常见问题及解决方案

问题	现象	解决方案
上下文有限	项目信息量不断增大，AI 忘记之前信息	项目模块化，大项目分割成小项目
改 A 坏 B	AI 生成代码不可控，连带修改	明确限定修改范围，仅修改指定文件
代码重复	布局一样的页面重复代码	适当提醒 AI 抽象为可复用组件

生命线：Git 版本控制

必须遵守的纪律：

每正确生成一个功能后提交一次版本
每次 AI 生成新代码后人工对比改动文件
出问题快速还原到之前版本，防止代码丢失

四大 AI 核心业务领域

1. RAG 知识库

用途：构建企业自己的问答系统或客服，基于企业真实数据作答，更准确贴合实际。

学习重点（面试高频考点）：

向量数据库：Milvus、PGVector
文档管道：抽取 / 转换 / 加载
索引构建策略
查询优化方法

2. 多模态

融合处理文本、图像、音频、视频等多种数据模态，提高产品易用性和创意空间。

需要学习：

模态转换技术：TTS（文本转语音）、STT（语音转文本）、OCR（光学字符识别）
都是现成工具库或云服务，掌握调用方法即可
Spring AI、LangChain 等框架已支持多模态大模型调用

3. MCP 模型上下文协议

Model Context Protocol，模型上下文协议。

两大技能：

接入别人的 MCP 服务增强自己项目
开发自己的 MCP 服务供别人使用

4. ReAct 智能体

构建智能体的开发范式，打造能够依据推理自主采取行动的 AI 系统。

开发涉及知识：任务规划、工具调用、交互 I/O、异常处理

两大工具调用方式：

Function Call
MCP

AI 工具链大全

1. 低代码平台：Dify

拖拉拽方式构建 AI 智能体
创建知识库导入文档
搭建复杂工作流
不会写代码也能搞复杂 AI 应用

2. 开发工具库

工具	用途
Apache Tika	强大的文件解析器，支持 PDF、Word、Excel、PPT 等
Playwright	模拟浏览器行为，运行网页、抓取网页数据、自动化测试
GSON / Kryo	JSON 格式解析库
jsoup	HTML 文档解析

3. 部署平台与技术

大厂云服务：优先选择，追求稳定性，不在意价格。

个人学习 / 快速上线平台：

平台	适用场景	优势
Vercel	前端应用	自动构建、在线浏览、CDN 分发、免费域名
Sealos	云原生应用	Kubernetes 集群管理，容器化部署，弹性伸缩
Railway	Docker 容器	无需操心服务器配置运维，自带自动化构建工具

必备技术：Docker 容器化技术。像 APP 安装包，轻松分发和部署应用程序。

五大应用场景详解

场景一：IDE 原生 AI 助手

主流方案对比：

Roo Code（原 Continue）

支持：OpenAI/Claude/DeepSeek/Gemini 全系列
支持 Ollama 本地模型接入
深度集成 VSCode，左侧边栏对话
开源免费

通义灵码

专门针对编程场景做优化
底座：Qwen 2.5-Max，全球排名第七（1332 分）
2.0 版本核心：AI 程序员模式
核心能力：多文件代码修改、选中段修改、对比差异、接受/拒绝交互
完全免费，是 DeepSeek API 不稳定时的最佳替代

场景二：本地大模型编程环境

核心优势：

代码不上传第三方，数据安全有保障
完全免费，没有 API 成本
延迟更低，1-2 秒快速响应
适合公司内网、涉密项目开发

推荐配置（普通电脑无 GPU）：

IDE: PyCharm Community Edition（免费）
插件: CodeGPT（免费）
模型运行：[[Ollama]]（免费）
模型: deepseek-r1:1.5b（小参数但质量惊艳）
响应速度: 1-2 秒
总成本: 0 元

场景三：AI 架构图和绘图

最佳组合：Cursor + Claude 4

五大绘图方法：

方法	工具	适用场景	推荐度
文本绘图	Mermaid 作图	日常文档流程图、时序图	★★★★★
文本绘图	PlantUML	专业 UML 图、复杂架构图	★★★★☆
网页绘图	HTML+SVG+Canvas	数据可视化、动态图表	★★★☆☆
专业工具	AI + draw.io	复杂架构、学习路线图	★★★★☆
创意绘图	Emoji	趣味展示、文档装饰	★★☆☆☆

场景四：AI 游戏开发和独立开发

经典案例深度解析：

Pieter Levels 3 小时开发 Fly.pieter 飞行游戏
10 天收入 28 万人民币，1.6 万玩家
支持近 2000 人同时在线
整个游戏只有一个 HTML 文件

核心启示：

技术不是瓶颈，需求和营销才是
70 多个项目只成功 4 个，快速试错才是王道
AI 解决代码问题，人类解决需求问题

场景五：AI 全栈 App 开发

推荐方案：DeepSeek + Cline Agent

Cline 能力：

Visual Studio 插件
AI 驱动，真正的全自动编程 Agent
支持读取、修改、创建工程文件
支持执行终端命令

场景六：Claude Code Skill 工作流增强

Claude Code 的 Skill 机制按需加载，不用时不占上下文。通用类 3 个精选 Skill：

Skill Creator（官方元技能）：

主动问流程怎么跑，帮你写 SKILL.md + 生成测试用例
10 多个独立来源把它放在起点，几乎所有教程开篇都是它
典型指令：“把我昨天手动跑的选题流程打包成 skill”

Planning with Files（社区，13,410 Stars）：

解决长文/长代码”写到后面忘开头”的问题
强制 Claude 先写 task_plan.md，每两步更新 findings.md / progress.md
给 Claude 外挂硬盘记事，对话再长也不会忘自己在干什么

Document & Presentation Skills（官方全家桶）：

PDF/Word/Excel/PPT 一句话转换
典型场景：23 页 PDF → 10 页品牌色 Slide

选择原则：控制总量 20 个以内确保触发准确率；手动跑同一任务 3 次以上再用 Skill Creator 打包；警惕”Setup Porn”（拿配置当拖延借口）。——来源：2026-05-11-claude-code-6-skills

场景七：自己制作 Skills（从 0 到 1）

从工程结构看，一个成熟 Skill 的最小完整骨架不是单文件，而是 SKILL.md 负责总控，scripts/ 放可执行逻辑，references/ 放按需加载的规则文档，assets/ 放模板和素材资源。这样的拆分能让 Agent 先理解“任务边界与流程”，再按需取用细节，避免把全部规范一次性塞进上下文。——来源：2026-05-21-agent-skills-woshipm

四阶段工作流（来源：2026-05-20-agent-skills-intro-claude-opus、2026-05-21-agent-skills-woshipm）：

阶段	核心动作	关键输出
1. 明确需求与边界	回答”解决什么问题、触发词是什么、需要什么资源”	单一职责定义
2. 构建文件夹	创建 SKILL.md + 按需创建 scripts/、references/、assets/	标准文件结构
3. 编写核心指令	描述职责边界 + 编号操作步骤 + 输入输出规范 + 硬性约束	高质量 SKILL.md
4. 测试与迭代	路径检查、YAML 校验、触发测试、执行验证	可用 Skill

关键质量指标：

description 黄金公式：[一句话核心功能] + [具体执行动作] + [明确的触发关键词/场景]
稳定性提升配方：3 条明确约束（必须/严禁/总是）+ 1 个输出示例 → 稳定性提升 60%
调试方法：claude --debug 查看加载日志，90% 触发失败原因是 description 不够具体

常用 Skills 资源：

Anthropic 官方：https://github.com/anthropics/skills
全球注册表：agentskills.io
开源兼容包：github.com/numman-ali/openskills（兼容多平台）
其他市场：skillsmp.com、skillsdirectory.com、skillhub.tencent.com

场景八：上百个 Skill 实战之后的作业流程升级

云舒（2026-05-27-woshipm-yunshu-skill-practical-guide）写了上百个 Skill 后给出更具体的作业升级：Agent 时代不能”先设计再验证”，必须”先跑通再封装”——因为任务复杂度涉及脚本、工具调用、文件读取、subagent 分工，凭想象设计的流程跟真实跑出来的差距太大。

四步作业流程：

阶段	关键动作	容易踩的坑
1. 跑通	和 AI 定好目标 → 把真实场景跑出来（不需完美）	追求一开始就完美，反而跑不通
2. 复盘	和 AI 讨论：哪些是正向流程 / 哪些是负向流程 / 哪些内容应该沉淀	跳过这步直接封装等于凭想象做产品
3. 封装	让 AI 基于复盘结果进行 Skill 封装	不让 AI 写，手写容易脱离真实经验
4. 回溯	开新对话测试稳定性，不稳定就定位问题	不做回溯永远不知道 Skill 是否真的可复用

像产品一样迭代：每次优化前问两个问题——①根本要解决的问题是什么（边界守护，不要做着做着过界）；②当前最明显的不足是什么（焦点守护，这次只解决一个最明显的问题）。云舒的两个真实案例：多视角深度分析 Skill 1.0→3.0 解决稳定性/数量问题但拒绝做 4.0 万能化；PPT Skill 1.0→4.0 解决能不能做→样式→适配→自动化，每一步只攻一个问题。

元判断模型——哪些场景值得 Skill 化：

熟悉领域 → 经验蒸馏：把脑子里”会做”的拆成 AI 能执行的流程
不熟悉领域 → 看能否建立回溯验证机制：能验证则可做（编程自动化测试案例），不能验证则放弃（六爻占卜案例：自己不懂、AI 也不懂，打磨半月放弃）

场景九：Trae IDE 构建本地化 AI 阅读助手

阿润（2026-05-27-woshipm-personalized-ai-reading-assistant）用字节 Trae IDE 构建了一个完整的个性化阅读 Skill，展示了 Skill 在非编程场景的潜力——AI 编程工具不只是写代码，更是构建本地化 AI 工作流的平台。

核心架构：

数据层：reading_resource/（已读书籍）+ user_profile.md（主动申报画像）+ preference_cache.md（缓存）
处理层：双层偏好建模 → 三阶阅读解析（全书概览→章节逻辑→逐章精读）→ PDF 导出
迭代层：读完后的对话导出 Markdown 存回文件夹，又变成下一轮的参考材料

与 Vibe Coding 的互补关系：Vibe Coding（场景七）是用 AI 做产品，Trae 阅读助手是用 IDE 做个人知识工具——两者共同指向同一个趋势：IDE + Skill 正在成为通用的 AI 工作流构建平台，其应用边界远超编程本身。

工具选型决策树

你需要 AI 编程吗？
├─ 是
│  ├─ 代码敏感 / 公司项目？
│  │  ├─ 是 → 本地部署：Ollama + deepseek-r1:1.5b
│  │  └─ 否
│  │     ├─ 预算充足？
│  │     │  ├─ 是 → Cursor Pro / GitHub Copilot
│  │     │  └─ 否
│  │     │    ├─ VSCode 用户 → Roo Code + DeepSeek API
│  │     │    └─ JetBrains 用户 → CodeGPT + DeepSeek API
│  │     └─ 想体验中文优化？→ 通义灵码
│  └─ 需要工程级自动修改？→ Cline Agent + DeepSeek
│
│  需要开发 AI 应用？
│  ├─ 快速原型 / 不会代码 → Dify 低代码平台
│  ├─ Java 企业项目 → Spring AI
│  ├─ 复杂智能体 → LangChain4j
│  └─ 多 Agent 工作流 → LangGraph
└─ 否 → 传统编程

行业趋势和未来判断

当前状态（2026）

大模型写代码能力已经超过大部分初级程序员
单文件开发非常成熟，多文件修改还需人工引导
Agent 级自动编程正在快速成熟
国内模型（DeepSeek/Qwen）代码能力已经赶上甚至超越国际模型
AI 时代，所有的传统业务都值得利用 AI 重塑一遍，这是程序员的机会

未来 1-2 年预判

程序员角色转变：从写代码的人变成验证代码质量的人，从码农变成 AI 操控师
一人公司爆发：单人利用 AI 就能做完整产品的创业者会大量出现
本地模型普及：主流笔记本都能跑够用的代码模型，数据安全不再是顾虑
自然语言编程成为主流：会写提示词比会写具体代码更重要

对开发者的建议

拥抱而不是恐惧：AI 是工具，用得好它会帮你，而不是替代你
建立自己的工具链：云端 + 本地的组合方案，应对不同场景
提升需求理解和系统设计能力：这些是 AI 短期内难以替代的
学会快速验证和迭代：第一版丑没关系，能跑起来最重要
关注营销和运营能力：酒香也怕巷子深，技术强只是基础
学习 AI 应用开发：不仅会用 AI 工具开发项目，还要能自主开发 AI 项目，把 AI 能力接入自己的项目

个人知识库

探索

AI编程开发