AI 编程开发全景
从 IDE 集成到 AI 应用开发,从工具使用到框架架构的完整知识体系
核心观点
-
多工具组合协作是趋势:单一模型不够用,未来是人类指挥多个 AI 工具分工协作,像管理团队一样管理 AI,“一个人就是一家公司”
-
本地部署 + 云端混合方案:简单代码用本地模型保证数据安全和速度,复杂任务调用云端大模型,成本和隐私兼顾
-
编程方式正在被重新定义:从写代码 → 改代码 → 提需求 → 验证迭代,开发者的工作重心从具体实现转向需求定义和质量把控
-
“迭代开发”比”一次完美”更重要:第一版难看功能简陋没关系,AI 时代最核心的能力是快速把想法变成可运行的原型,然后持续迭代
-
未来程序员 = AI 操控师:把自己的经验和 AI 融合,驾驭 AI 更快完成工作,而不是被 AI 淘汰
-
Claude Code Skill 装太多会降触发准确率:装 30+ 个 Skill 实测触发准确率掉到 50% 以下,官方建议 20-30 个且贴自己工作流。筛选唯一标准”能不能替我每天省掉一步手动动作”,注意”Setup Porn”陷阱——来源:2026-05-11-claude-code-6-skills
-
AI 编程正在从提示词技巧升级为上下文资产管理:Claude Code、Codex、Manus 等 harness 的差异不如
agents.md、memory.md、Skill 文件与 MCP 连接方式重要;真正可迁移的生产力来自上下文、记忆、工具和技能组合成的数字团队系统——来源:2026-05-13-ai-agent-productivity-20x -
Skills 已成为跨 Agent 平台的通用协议:从 2025-10-16 Anthropic 首发到 2025-12-18 开放标准,Codex/Cursor/OpenClaw/Hermes 等十余个 Agent 全面支持,Skills 成为 AI 时代相当于 npm 的技能分发标准——来源:2026-05-20-agent-skills-intro-claude-opus
-
description 字段是 Skills 触发的唯一门控:90% 的 Skill 未被触发是因为 description 不够具体;黄金写法:
[功能]+[执行动作]+[触发关键词],用祈使句,不超过 500 字;含 3 条约束 + 1 个输出示例可使稳定性提升 60%(Anthropic 内部数据)——来源:2026-05-20-agent-skills-intro-claude-opus -
Skill 的标准工程骨架是
SKILL.md驱动、资源目录按需加载:SKILL.md负责总控,scripts/放可执行代码,references/放规范文档,assets/放模板与素材;真正的工程优势不只是”会触发”,而是能靠渐进式披露把大体量规范拆成随取随用的知识层,既保持约束密度,又不把上下文一次性塞满——来源:2026-05-21-agent-skills-woshipm -
多 Agent 并存时 Skill 应统一中央管理:Claude Code、Cursor、OpenClaw 等每个 Agent 都有独立 Skills 文件夹,导致重复安装、版本漂移、不知道自己有什么 Skill。解决方案是用软链接把所有 Agent 的 skills 目录统一指向一个 SharedSkills 中央文件夹——改一处全部同步,新 Skill 自动对所有 Agent 生效。更深层的理由:Skill 是 AI 时代里少有的确定性资产,其价值曲线与 AI 进化轨道独立,需要稳定基础设施沉淀和进化——来源:2026-05-27-woshipm-central-skill-symlink
-
写 Skill 的核心方法论是”先跑通再封装”而不是”先设计”:Agent 任务复杂度涉及脚本、工具调用、文件读取、subagent 分工,很多流程很难一开始就完整设计。云舒”上百个 Skill”的实战经验给出四步作业流程:跑通(和 AI 定目标、跑出真实场景)→ 复盘(讨论正向 vs 负向流程、哪些应该沉淀)→ 封装(让 AI 基于复盘结果做封装)→ 回溯测试(开新对话验证稳定性)。本质是从凭想象设计走向从实践中提炼——来源:2026-05-27-woshipm-yunshu-skill-practical-guide
-
Skill 的三层渐进式加载机制 + 熟悉/不熟悉领域元判断:Agent 调用 Skill 不是一上来就把全部内容塞给模型,而是分层加载:第一层 name+description(触发判断)→ 第二层 SKILL.md(主流程)→ 第三层 references/scripts/assets(按需补充)。判断一个场景能否 Skill 化:熟悉领域走经验蒸馏;不熟悉领域看能否建立回溯验证机制(六爻占卜失败 vs 编程自动化测试成功)——来源:2026-05-27-woshipm-yunshu-skill-practical-guide
-
Vibe Coding 把 AI 编程的门槛从”会写代码”挪到”讲得清需求”:产品经理不写代码、用自然语言 + 产品思维驱动 AI 完成从调研到上线的全流程,五个产品+两个企业级 0→1 全程跑通。关键不是工具怎么用,是苏格拉底式 PRD 追问法(AI 一次一问往深处挖隐含需求)+ 原型三阶段顺序(先定设计语言→做最难一页→基准铺开)+ CLAUDE.md 入职手册的数据飞轮机制(
#指令沉淀个人规则,目标 150 行)。“模糊的需求,必然产生模糊的产品”是核心反面教训——来源:2026-05-27-pm-vibe-coding-5-products -
Trae IDE + Skill 可构建本地化 AI 阅读助手:字节 Trae IDE 无需科学上网,通过 Prompt 定义 Skill 即可实现完整的个性化读书工作流——双层偏好建模(历史标注 + 主动申报)→ 三阶阅读解析(全书概览 → 章节逻辑 → 逐章精读)→ PDF 报告导出。本地部署解决了云端读书工具的数据护城河问题,文件大小基本不设限,扫描版 PDF 也能处理——来源:2026-05-27-woshipm-personalized-ai-reading-assistant
-
Codex 从设计素材工具升级为完整产品开发平台:非技术背景 AI PM 用 Codex + GPT-5.5 半天开发 macOS 原生 App(番茄时钟”专注时刻”),验证 Codex 在产品级代码开发场景的可行性。核心工作流是”手搓原型 → Gemini 生成 PRD → PRD + 设计稿图片一起丢给 Codex”——上下文越完整,AI 输出越接近预期。AI 卡壳时(macOS 液态玻璃效果),用另一个 AI 查资料整理线索再引导主 AI 查官方文档,10 分钟解决——来源:2026-05-27-woshipm-codex-product-dev-lessons
-
AGENTS.md 是上下文资产体系中成本最低但收益最高的一个:5 分钟写一份 60-100 行的项目规范文件(技术栈+目录+编码规范+Never 规则+协作约定),AI 代码规范遵循率从 60% 飙升到 95%+,一次通过率从 40% 提升到 80%+,每次手动修正时间从 8 分钟降到 1 分钟。核心机制是”Never 规则持续演进”——每次 AI 犯错就加一条禁令,11 条规则全是真实踩坑积累。AGENTS.md 在 Claude Code 生态中叫 CLAUDE.md,与 DESIGN.md(视觉规范)、AGENTS.local.md(个人偏好)组成三文件体系——来源:2026-05-28-agents-md-coding-standard
-
多 Agent 协作需要”共同工作场”而非各自独立的记忆:同时使用 Codex(主力 Agent,复杂任务协调)、Claude Code(代码工程和内容创作)、WorkBuddy(日常任务)的用户,面临的核心问题是”它们经常彼此不知道对方做过什么”——不是 AI 不够聪明,而是缺少共同工作场。AI Workshop 用”共享核心文档 + 各助手专属入口”的设计,将 USER.md、WORKFLOW.md、CURRENT.md 作为共同事实源,各 AI 的入口文件只做适配和指引。关键设计是”轻量启动,按需加深”——借鉴 Skill 调用的渐进式披露思路,日常任务只读 3 份文件,跨 Agent 协作再加载制度文档,具体项目先查 PROJECTS.md 索引再深入,类似图书馆检索系统——来源:2026-05-28-woshipm-ai-workshop-multi-agent-collaboration
-
LLM Wiki 的四层架构揭示了”知识编译”的工程路径:本地知识库不是 RAG 的简单替代,而是四层分工——用户层(决定读什么)→ LLM 层(按 CLAUDE.md 行为规范执行 ingest/query/lint)→ CLI 层(bin/wiki 语义命令封装 qmd 检索引擎,避免 LLM 直接操作底层参数)→ 系统层(raw 只读 + wiki 可写 + shared 跨域 + qmd 索引)。关键设计:CLAUDE.md 不是配置文件而是行为规范手册(六维内容),长文档不读全文而是用 search-chunks 按块检索+WIP 续传(处理完一个主题就落盘避免上下文爆),六域分类按”命题”分不按”学科”分——来源:2026-05-28-woshipm-llm-wiki-qmd-architecture
-
Codex 官方 11 条高阶技巧定义了”AI 工作助理”的操作范式:OpenAI Codex 团队成员系统性梳理了把 Codex 从”写代码工具”升级为”持续运转的 AI 工作助理”的六大关键能力——① Durable Threads(长期对话串)让决策历史和工作进度跨会话保留,核心洞察是”真正耗时的是重新交代背景”;② Steering(实时修正方向)+ Queuing(排入下一步不打断当前任务)双机制实现连续工作流;③ 四层工具扩展(in-app browser → Chrome Extension → Computer Use → MCP servers)按复杂度逐级升级;④ Goals 将任务目标定义为”可验证的完成条件”而非模糊指令;⑤ Side Panel 在同一界面预览 PDF/表格/简报等产出物;⑥ Shared Memory 用 Obsidian vault/Git/Dropbox 持久存储长期工作脉络,Codex Memories 作为辅助回忆层——来源:2026-05-28-codex-11-tips
-
零基础 PM 用 Claude Code 6 周独立交付 8.5 万行代码的完整产品:Shawn 用 62,376 次对话验证了”不写代码的 PM + Claude Code = 能发版的完整产品”,沉淀了 5 步工作流(想清楚→User Story→Claude 写→review→测试,比例反转:PM 想 1 晚 > Claude 写 10 分钟)+ 多窗口并行开发 + 273 行 CLAUDE.md 数据飞轮 + 版本注册表测试(测完整性而非正确性)+ 23 case eval 框架(PM 出题+跨 provider 对比)。Computer Use 5 层安全防御和”模型试图打开钥匙串”的教训,重新定义了 AI 编程的安全底线——来源:2026-05-29-woshipm-shawn-abu-claude-code-6-weeks
-
规格驱动 + AI 生成的两段式开发是搭建生产级 RAG 的有效范式:先用 Claude Code 输出约 440 行的实现方案文档(含架构、目录树、LangGraph 十节点状态机、API 路由与数据模型),再按方案逐模块生成 Monorepo 代码。配合通义千问(qwen3.6-plus 对话 + text-embedding-3-large 向量)+ Milvus 混合检索,100 元人民币搭出包含评测面板的生产级 RAG 平台。核心教训:真正的敌人是静默失败——14 个 Bug 中最耗时的不是明确报错,而是检索 0 条、向量维度 silently mismatch、LangChain baseUrl 配置被忽略。Embedding 维度一致性、相似度阈值实测、API 兼容写法是上线前三必查项——来源:2026-05-31-woshipm-100rmb-production-rag
-
Vibe Coding 的天花板可通过 7 Agent 软件工厂突破:当单一 AI 对话要求同时扮演 6+ 角色时,错误在混乱中累积(“第 1 天像魔法,第 30 天监督时间超过自己写代码”)。解决方案是把工作拆给 7 个专责 Agent(研究员→故事撰写者→规格撰写者→后端建造者→前端建造者→测试验证者→验证员),每个拥有单一职责、干净上下文窗口和严格工具权限边界。3 个人类审核点(核准故事→核准简报→核准 PR)取代全程监督,人类专注于判断力环节。核心隐性收益:Agent 职责隔离天然防控上下文漂移——错误假设被限制在单个 Agent 内,不会传播——来源:2026-05-31-blocktempo-7-agents-software-factory
-
Playwright CLI 接入 Claude Code 实现浏览器自动化是 Token 效率最优方案:Chrome DevTools MCP 每个工具描述很长,占用大量上下文 Token;Playwright CLI 由 Claude Code 直接调用脚本,Token 消耗大幅降低。三大实战场景验证可行性:QA 自动测试闭环(AI 写应用→Playwright 测试→发现 Bug→自动修复→重测)、网页信息抓取(遇到反爬自动切换搜索引擎)、登录态社区自动化(persistent profile 保持 Cookie,经 4-5 次迭代后脚本稳定)。核心洞察是”脚本迭代模式”——首次运行几乎不可能完美,但 AI 能从截图和错误中自动分析并更新脚本。浏览器自动化脚本可封装为 Skill 配合定时任务实现全自动执行——来源:2026-06-03-youtube-claude-code-playwright-browser-automation
-
Codex 与 Claude Code 的差异本质是”执行者”与”创意伙伴”的角色分化:三个同 prompt 实验(研究报告 PDF、落地页、Dashboard)量化验证——Claude Code 在 Dashboard 任务上 2 分钟 / 283k tokens 完成(Codex 8 分钟 / 1.64M tokens),前端设计质量明显领先(暗色模式、动画、字体质感);Codex 在研究型任务上更快更省(2.8M tokens vs 4.7M tokens),output tokens 始终精简 2-5 倍导致更慢触达订阅额度上限。两者功能高度重叠(都支持 MCP、hooks、子代理、Skills、work trees),真正差异在于定制化深度(Claude Code 30 个 hook 事件 vs Codex 6 个)和平台政策(OpenAI 公开支持第三方 Agent 框架用 ChatGPT 订阅,Anthropic 明确禁止)。最佳策略不是二选一,而是用 Claude Code 做规划/头脑风暴/复杂前端,用 Codex 做执行/review/研究密集型任务——来源:2026-06-03-youtube-codex-vs-claude-code-comparison
-
Hermes Agent 通过”Cron + Telegram + 自我进化”三机制重新定义个人 AI 助手定位:与 Claude Code(深度编码主力,90% 知识工作)和 OpenClaw(跨 SaaS 工作流编排)形成三分格局——Claude Code 是桌前驾驶舱,Hermes 是移动遥控器。五支柱架构(Memory / Skills / Soul / Cron / Self-Improving Loop)让 Agent 随使用越来越懂用户;Cron 是核心差异化能力,Claude Code Routines 每天限 15 次,Hermes 无限制,实测 YouTube 评论监控(每 10 分钟检查 12 小时)、nightly GitHub sync、server security sweeps 等。多 Agent 扩展遵循”是否需要独立记忆/权限/调度”决策树,用 Docker 容器隔离防止 Key 串用——来源:2026-06-03-hermes-agent-setup-guide
素材汇总
| 素材 | 核心贡献 | 详见 |
|---|---|---|
| 历经17个版本 AI Skill 落地 | 17版本迭代打磨AI Skill:浏览器→API架构转型、假成功校验闭环、5种券类型独立知识域、工程化细节决定体验断崖 | 2026-06-09-ai-skill-coupon-landing |
| 天气MCP三维度评测 | POI定位精度·100天超长预报·token成本仅墨迹1/5,揭示垂直MCP从接口封装升级为数据深度竞争 | 2026-06-09-woshipm-weather-mcp-comparison |
| Codex vs Claude Code 深度对比 | 三场同prompt实验量化:Dashboard 2min vs 8min、output tokens 精简2-5倍、执行者vs创意伙伴角色分化 | 2026-06-03-youtube-codex-vs-claude-code-comparison |
| Hermes Agent 从零搭建完整教程 | 五支柱架构+Cron核心差异化+Telegram移动办公+VPS部署+多Agent扩展决策树 | 2026-06-03-hermes-agent-setup-guide |
| 7 Agent 软件工厂 | 7 个专责 Agent + 3 个人类审核点 + 工具权限隔离 + 上下文漂移防控 | 2026-05-31-blocktempo-7-agents-software-factory |
| Claude Code + Playwright 浏览器自动化 | Playwright CLI Token效率优势 + QA自动测试闭环 + 登录态社区自动化 + Skill封装定时执行 | 2026-06-03-youtube-claude-code-playwright-browser-automation |
| Codex 桌面版 + Ollama 本地模型 | Ollama v0.24.0 一个指令接入本地模型,免费无限使用 Codex,5 款推荐模型 | 2026-06-02-koc-ollama-codex-local-model |
| 零基础PM用Claude Code 6周造出AI桌面应用 | 5步工作流+多窗口并行+CLAUDE.md数据飞轮+版本注册表+eval框架 | 2026-05-29-woshipm-shawn-abu-claude-code-6-weeks |
| 一百块搭出生产级 RAG | 规格驱动两段式开发+Milvus混合检索+LangGraph十节点+静默失败排查 | 2026-05-31-woshipm-100rmb-production-rag |
| OpenAI Codex 團隊成員分享:11 個技巧 | Codex 官方团队 11 条高阶使用框架:Durable Threads / Steering+Queuing / Goals / Shared Memory | 2026-05-28-codex-11-tips |
| 一份 AGENTS.md,让 AI 代码规范率从 60% 飙升到 95% | AGENTS.md 项目规范文件 + Never 规则演进机制 + 三文件体系 | 2026-05-28-agents-md-coding-standard |
| 本地多Agent协作系统 AI Workshop | 多 Agent 共享工作区机制(USER.md + WORKFLOW.md + CURRENT.md) | 2026-05-28-woshipm-ai-workshop-multi-agent-collaboration |
| LLM Wiki实战篇:少花token,多沉淀知识 | qmd 四层架构 + CLAUDE.md 行为规范 + search-chunks 按块检索 | 2026-05-28-woshipm-llm-wiki-qmd-architecture |
| 从0开始vibe coding | PM 不写代码用自然语言驱动 AI 完成从调研到上线全流程 | 2026-05-28-woshipm-vibe-coding-cold-start-offline |
| 用Codex独立开发产品 | Codex + GPT-5.5 半天开发 macOS 原生 App,上下文越完整越接近预期 | 2026-05-27-woshipm-codex-product-dev-lessons |
| 为所有 Agent 统一 Skill 库 | 软链接中央管理 SharedSkills,Skill 是跨 Agent 的确定性资产 | 2026-05-27-woshipm-central-skill-symlink |
| Skill 实操教程 | ”先跑通再封装”四步法 + 元判断模型(熟悉/不熟悉领域) | 2026-05-27-woshipm-yunshu-skill-practical-guide |
| PM 一个人跑通五个产品 | Vibe Coding 苏格拉底式 PRD 追问法 + CLAUDE.md 入职手册数据飞轮 | 2026-05-27-pm-vibe-coding-5-products |
| Trae IDE 构建本地化 AI 阅读助手 | 双层偏好建模 + 三阶阅读解析 + 数据主权 | 2026-05-27-woshipm-personalized-ai-reading-assistant |
| Agent Skills 万字干货 | Skills 标准手册 + 渐进披露 + description 黄金公式 | 2026-05-20-agent-skills-intro-claude-opus |
| Agent Skills 全景教程 | SKILL.md 驱动工程骨架 + 三层渐进式加载 | 2026-05-21-agent-skills-woshipm |
| Agent harness + 上下文资产 | AI 编程从提示词技巧升级为上下文资产管理 | 2026-05-13-ai-agent-productivity-20x |
| Claude Code Skills 精选 | 30+ Skill 触发准确率掉到 50% 以下,建议控制 20-30 个 | 2026-05-11-claude-code-6-skills |
AI 核心概念体系
16 个关键概念一网打尽
| 类别 | 核心概念 |
|---|---|
| 基础概念 | 大模型、温度、提示词、Token、API Key |
| 模型技术 | 模型蒸馏、多模态、上下文信息 |
| 高级技术 | RAG 检索增强生成、Embedding、思维链 CoT、ReAct |
| 系统架构 | 智能体 Agent、智能体工作流、MCP |
RAG 标准工作流:
企业文档 → Embedding 向量化 → 向量数据库存储
↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答
三大 AI 开发框架
| 场景 | 推荐框架 | 核心优势 |
|---|---|---|
| Java 企业应用 | Spring AI | 无缝集成 Spring 生态 |
| 智能体开发 | LangChain4j | 完整 Agent 工具链 |
| 复杂工作流 | LangGraph | 图结构可视化编排 |
Spring AI
- 官网:https://docs.spring.io/spring-ai/reference/getting-started.html
- 能力:快速对接大模型、保存会话上下文、对接向量数据库实现 RAG
- 优势:Java 程序员首选,和主流 Spring 无缝集成,上手难度低
LangChain4j
- 官网:https://docs.langchain4j.dev/intro
- 能力:提供大量现成方法提高 AI 应用开发效率
- 优势:更灵活,更适合开发复杂的智能体
学习建议:两个都要学,先从 Spring AI 学起,再学 LangChain4j 会更简单。
LangGraph
- 特点:用图的结构组织和管理 AI 工作流
- 适用:构建有状态、多代理的企业级 AI 大项目
- 比喻:多个 AI 智能体分工协作(文字、图片、排版),LangGraph 是项目负责人安排工作流程
核心技术栈矩阵
VSCode 生态
| 方案 | 模型来源 | 特点 | 成本 |
|---|---|---|---|
| Roo Code + DeepSeek API | 云端 | 多模型兼容,灵活切换 | API 按量计费 |
| Roo Code + Ollama | 本地 | 数据安全,隐私保护 | 免费 |
| 通义灵码 | 阿里云 | 编程场景优化,中文好 | 免费 |
PyCharm 生态
| 方案 | 实现 | 特点 |
|---|---|---|
| CodeGPT + Ollama + deepseek-r1:1.5b | 本地 1.5b 参数模型 | 1-2 秒响应,零成本 |
| CodeGPT + 硅基流动 DeepSeek API | 云端 | 更好的代码质量 |
独立 AI 编程 Agent
| 工具 | 代表功能 |
|---|---|
| Cursor | 最早的全文件 AI 编程 IDE,Agent 模式 |
| Cline (VSCode/VS) | 多文件自动修改工程级 Agent |
AI 编程高级技巧
Prompt 质量决定输出质量
基本优化四要素:
- 明确 AI 的角色定位
- 提供具体的细节要求
- 拆解任务
- 提供示例
进阶技巧:AI 生成高质量 Prompt
- 先把自己手写的 Prompt 扔给其他 AI
- 让它帮你生成一段质量更高、结构化的需求文档
- 再喂给 Cursor 去生成网站
完整需求文档五大要素:
- 明确项目背景和目标
- 详细列出功能要求和技术栈
- 指定代码风格和架构模式
- 提供示例和参考资料
- 明确限制条件和边界场景
复杂项目:三步迭代法
第一步:生成基础可运行框架
- 用 Cursor Agent 模式 + 高级推理模型
- 目标:生成基础项目框架,确保能跑起来就行
- 暂时不管功能好不好用
第二步:逐个实现核心功能
- 划分模块和功能点
- 依次向 AI 提问
- 逐步实现核心功能并验证可用性
第三步:优化实现细节
- 在不影响功能的前提下
- 优化代码结构、性能、可读性
三大常见问题及解决方案
| 问题 | 现象 | 解决方案 |
|---|---|---|
| 上下文有限 | 项目信息量不断增大,AI 忘记之前信息 | 项目模块化,大项目分割成小项目 |
| 改 A 坏 B | AI 生成代码不可控,连带修改 | 明确限定修改范围,仅修改指定文件 |
| 代码重复 | 布局一样的页面重复代码 | 适当提醒 AI 抽象为可复用组件 |
生命线:Git 版本控制
必须遵守的纪律:
- 每正确生成一个功能后提交一次版本
- 每次 AI 生成新代码后人工对比改动文件
- 出问题快速还原到之前版本,防止代码丢失
四大 AI 核心业务领域
1. RAG 知识库
用途:构建企业自己的问答系统或客服,基于企业真实数据作答,更准确贴合实际。
学习重点(面试高频考点):
- 向量数据库:Milvus、PGVector
- 文档管道:抽取 / 转换 / 加载
- 索引构建策略
- 查询优化方法
2. 多模态
融合处理文本、图像、音频、视频等多种数据模态,提高产品易用性和创意空间。
需要学习:
- 模态转换技术:TTS(文本转语音)、STT(语音转文本)、OCR(光学字符识别)
- 都是现成工具库或云服务,掌握调用方法即可
- Spring AI、LangChain 等框架已支持多模态大模型调用
3. MCP 模型上下文协议
Model Context Protocol,模型上下文协议。
两大技能:
- 接入别人的 MCP 服务增强自己项目
- 开发自己的 MCP 服务供别人使用
4. ReAct 智能体
构建智能体的开发范式,打造能够依据推理自主采取行动的 AI 系统。
开发涉及知识:任务规划、工具调用、交互 I/O、异常处理
两大工具调用方式:
- Function Call
- MCP
AI 工具链大全
1. 低代码平台:Dify
- 拖拉拽方式构建 AI 智能体
- 创建知识库导入文档
- 搭建复杂工作流
- 不会写代码也能搞复杂 AI 应用
2. 开发工具库
| 工具 | 用途 |
|---|---|
| Apache Tika | 强大的文件解析器,支持 PDF、Word、Excel、PPT 等 |
| Playwright | 模拟浏览器行为,运行网页、抓取网页数据、自动化测试 |
| GSON / Kryo | JSON 格式解析库 |
| jsoup | HTML 文档解析 |
3. 部署平台与技术
大厂云服务:优先选择,追求稳定性,不在意价格。
个人学习 / 快速上线平台:
| 平台 | 适用场景 | 优势 |
|---|---|---|
| Vercel | 前端应用 | 自动构建、在线浏览、CDN 分发、免费域名 |
| Sealos | 云原生应用 | Kubernetes 集群管理,容器化部署,弹性伸缩 |
| Railway | Docker 容器 | 无需操心服务器配置运维,自带自动化构建工具 |
必备技术:Docker 容器化技术。像 APP 安装包,轻松分发和部署应用程序。
五大应用场景详解
场景一:IDE 原生 AI 助手
主流方案对比:
Roo Code(原 Continue)
- 支持:OpenAI/Claude/DeepSeek/Gemini 全系列
- 支持 Ollama 本地模型接入
- 深度集成 VSCode,左侧边栏对话
- 开源免费
通义灵码
- 专门针对编程场景做优化
- 底座:Qwen 2.5-Max,全球排名第七(1332 分)
- 2.0 版本核心:AI 程序员模式
- 核心能力:多文件代码修改、选中段修改、对比差异、接受/拒绝交互
- 完全免费,是 DeepSeek API 不稳定时的最佳替代
场景二:本地大模型编程环境
核心优势:
- 代码不上传第三方,数据安全有保障
- 完全免费,没有 API 成本
- 延迟更低,1-2 秒快速响应
- 适合公司内网、涉密项目开发
推荐配置(普通电脑无 GPU):
IDE: PyCharm Community Edition(免费)
插件: CodeGPT(免费)
模型运行:[[Ollama]](免费)
模型: deepseek-r1:1.5b(小参数但质量惊艳)
响应速度: 1-2 秒
总成本: 0 元
场景三:AI 架构图和绘图
最佳组合:Cursor + Claude 4
五大绘图方法:
| 方法 | 工具 | 适用场景 | 推荐度 |
|---|---|---|---|
| 文本绘图 | Mermaid 作图 | 日常文档流程图、时序图 | ★★★★★ |
| 文本绘图 | PlantUML | 专业 UML 图、复杂架构图 | ★★★★☆ |
| 网页绘图 | HTML+SVG+Canvas | 数据可视化、动态图表 | ★★★☆☆ |
| 专业工具 | AI + draw.io | 复杂架构、学习路线图 | ★★★★☆ |
| 创意绘图 | Emoji | 趣味展示、文档装饰 | ★★☆☆☆ |
场景四:AI 游戏开发和独立开发
经典案例深度解析:
- Pieter Levels 3 小时开发 Fly.pieter 飞行游戏
- 10 天收入 28 万人民币,1.6 万玩家
- 支持近 2000 人同时在线
- 整个游戏只有一个 HTML 文件
核心启示:
- 技术不是瓶颈,需求和营销才是
- 70 多个项目只成功 4 个,快速试错才是王道
- AI 解决代码问题,人类解决需求问题
场景五:AI 全栈 App 开发
推荐方案:DeepSeek + Cline Agent
Cline 能力:
- Visual Studio 插件
- AI 驱动,真正的全自动编程 Agent
- 支持读取、修改、创建工程文件
- 支持执行终端命令
场景六:Claude Code Skill 工作流增强
Claude Code 的 Skill 机制按需加载,不用时不占上下文。通用类 3 个精选 Skill:
Skill Creator(官方元技能):
- 主动问流程怎么跑,帮你写 SKILL.md + 生成测试用例
- 10 多个独立来源把它放在起点,几乎所有教程开篇都是它
- 典型指令:“把我昨天手动跑的选题流程打包成 skill”
Planning with Files(社区,13,410 Stars):
- 解决长文/长代码”写到后面忘开头”的问题
- 强制 Claude 先写 task_plan.md,每两步更新 findings.md / progress.md
- 给 Claude 外挂硬盘记事,对话再长也不会忘自己在干什么
Document & Presentation Skills(官方全家桶):
- PDF/Word/Excel/PPT 一句话转换
- 典型场景:23 页 PDF → 10 页品牌色 Slide
选择原则:控制总量 20 个以内确保触发准确率;手动跑同一任务 3 次以上再用 Skill Creator 打包;警惕”Setup Porn”(拿配置当拖延借口)。——来源:2026-05-11-claude-code-6-skills
场景七:自己制作 Skills(从 0 到 1)
从工程结构看,一个成熟 Skill 的最小完整骨架不是单文件,而是 SKILL.md 负责总控,scripts/ 放可执行逻辑,references/ 放按需加载的规则文档,assets/ 放模板和素材资源。这样的拆分能让 Agent 先理解“任务边界与流程”,再按需取用细节,避免把全部规范一次性塞进上下文。——来源:2026-05-21-agent-skills-woshipm
四阶段工作流(来源:2026-05-20-agent-skills-intro-claude-opus、2026-05-21-agent-skills-woshipm):
| 阶段 | 核心动作 | 关键输出 |
|---|---|---|
| 1. 明确需求与边界 | 回答”解决什么问题、触发词是什么、需要什么资源” | 单一职责定义 |
| 2. 构建文件夹 | 创建 SKILL.md + 按需创建 scripts/、references/、assets/ | 标准文件结构 |
| 3. 编写核心指令 | 描述职责边界 + 编号操作步骤 + 输入输出规范 + 硬性约束 | 高质量 SKILL.md |
| 4. 测试与迭代 | 路径检查、YAML 校验、触发测试、执行验证 | 可用 Skill |
关键质量指标:
- description 黄金公式:
[一句话核心功能] + [具体执行动作] + [明确的触发关键词/场景] - 稳定性提升配方:3 条明确约束(必须/严禁/总是)+ 1 个输出示例 → 稳定性提升 60%
- 调试方法:
claude --debug查看加载日志,90% 触发失败原因是 description 不够具体
常用 Skills 资源:
- Anthropic 官方:https://github.com/anthropics/skills
- 全球注册表:agentskills.io
- 开源兼容包:github.com/numman-ali/openskills(兼容多平台)
- 其他市场:skillsmp.com、skillsdirectory.com、skillhub.tencent.com
场景八:上百个 Skill 实战之后的作业流程升级
云舒(2026-05-27-woshipm-yunshu-skill-practical-guide)写了上百个 Skill 后给出更具体的作业升级:Agent 时代不能”先设计再验证”,必须”先跑通再封装”——因为任务复杂度涉及脚本、工具调用、文件读取、subagent 分工,凭想象设计的流程跟真实跑出来的差距太大。
四步作业流程:
| 阶段 | 关键动作 | 容易踩的坑 |
|---|---|---|
| 1. 跑通 | 和 AI 定好目标 → 把真实场景跑出来(不需完美) | 追求一开始就完美,反而跑不通 |
| 2. 复盘 | 和 AI 讨论:哪些是正向流程 / 哪些是负向流程 / 哪些内容应该沉淀 | 跳过这步直接封装等于凭想象做产品 |
| 3. 封装 | 让 AI 基于复盘结果进行 Skill 封装 | 不让 AI 写,手写容易脱离真实经验 |
| 4. 回溯 | 开新对话测试稳定性,不稳定就定位问题 | 不做回溯永远不知道 Skill 是否真的可复用 |
像产品一样迭代:每次优化前问两个问题——①根本要解决的问题是什么(边界守护,不要做着做着过界);②当前最明显的不足是什么(焦点守护,这次只解决一个最明显的问题)。云舒的两个真实案例:多视角深度分析 Skill 1.0→3.0 解决稳定性/数量问题但拒绝做 4.0 万能化;PPT Skill 1.0→4.0 解决能不能做→样式→适配→自动化,每一步只攻一个问题。
元判断模型——哪些场景值得 Skill 化:
- 熟悉领域 → 经验蒸馏:把脑子里”会做”的拆成 AI 能执行的流程
- 不熟悉领域 → 看能否建立回溯验证机制:能验证则可做(编程自动化测试案例),不能验证则放弃(六爻占卜案例:自己不懂、AI 也不懂,打磨半月放弃)
场景九:Trae IDE 构建本地化 AI 阅读助手
阿润(2026-05-27-woshipm-personalized-ai-reading-assistant)用字节 Trae IDE 构建了一个完整的个性化阅读 Skill,展示了 Skill 在非编程场景的潜力——AI 编程工具不只是写代码,更是构建本地化 AI 工作流的平台。
核心架构:
- 数据层:
reading_resource/(已读书籍)+user_profile.md(主动申报画像)+preference_cache.md(缓存) - 处理层:双层偏好建模 → 三阶阅读解析(全书概览→章节逻辑→逐章精读)→ PDF 导出
- 迭代层:读完后的对话导出 Markdown 存回文件夹,又变成下一轮的参考材料
与 Vibe Coding 的互补关系:Vibe Coding(场景七)是用 AI 做产品,Trae 阅读助手是用 IDE 做个人知识工具——两者共同指向同一个趋势:IDE + Skill 正在成为通用的 AI 工作流构建平台,其应用边界远超编程本身。
工具选型决策树
你需要 AI 编程吗?
├─ 是
│ ├─ 代码敏感 / 公司项目?
│ │ ├─ 是 → 本地部署:Ollama + deepseek-r1:1.5b
│ │ └─ 否
│ │ ├─ 预算充足?
│ │ │ ├─ 是 → Cursor Pro / GitHub Copilot
│ │ │ └─ 否
│ │ │ ├─ VSCode 用户 → Roo Code + DeepSeek API
│ │ │ └─ JetBrains 用户 → CodeGPT + DeepSeek API
│ │ └─ 想体验中文优化?→ 通义灵码
│ └─ 需要工程级自动修改?→ Cline Agent + DeepSeek
│
│ 需要开发 AI 应用?
│ ├─ 快速原型 / 不会代码 → Dify 低代码平台
│ ├─ Java 企业项目 → Spring AI
│ ├─ 复杂智能体 → LangChain4j
│ └─ 多 Agent 工作流 → LangGraph
└─ 否 → 传统编程
行业趋势和未来判断
当前状态(2026)
- 大模型写代码能力已经超过大部分初级程序员
- 单文件开发非常成熟,多文件修改还需人工引导
- Agent 级自动编程正在快速成熟
- 国内模型(DeepSeek/Qwen)代码能力已经赶上甚至超越国际模型
- AI 时代,所有的传统业务都值得利用 AI 重塑一遍,这是程序员的机会
未来 1-2 年预判
- 程序员角色转变:从写代码的人变成验证代码质量的人,从码农变成 AI 操控师
- 一人公司爆发:单人利用 AI 就能做完整产品的创业者会大量出现
- 本地模型普及:主流笔记本都能跑够用的代码模型,数据安全不再是顾虑
- 自然语言编程成为主流:会写提示词比会写具体代码更重要
对开发者的建议
- 拥抱而不是恐惧:AI 是工具,用得好它会帮你,而不是替代你
- 建立自己的工具链:云端 + 本地的组合方案,应对不同场景
- 提升需求理解和系统设计能力:这些是 AI 短期内难以替代的
- 学会快速验证和迭代:第一版丑没关系,能跑起来最重要
- 关注营销和运营能力:酒香也怕巷子深,技术强只是基础
- 学习 AI 应用开发:不仅会用 AI 工具开发项目,还要能自主开发 AI 项目,把 AI 能力接入自己的项目