AI 编程开发全景

从 IDE 集成到 AI 应用开发,从工具使用到框架架构的完整知识体系

核心观点

  1. 多工具组合协作是趋势:单一模型不够用,未来是人类指挥多个 AI 工具分工协作,像管理团队一样管理 AI,“一个人就是一家公司”

  2. 本地部署 + 云端混合方案:简单代码用本地模型保证数据安全和速度,复杂任务调用云端大模型,成本和隐私兼顾

  3. 编程方式正在被重新定义:从写代码 → 改代码 → 提需求 → 验证迭代,开发者的工作重心从具体实现转向需求定义和质量把控

  4. “迭代开发”比”一次完美”更重要:第一版难看功能简陋没关系,AI 时代最核心的能力是快速把想法变成可运行的原型,然后持续迭代

  5. 未来程序员 = AI 操控师:把自己的经验和 AI 融合,驾驭 AI 更快完成工作,而不是被 AI 淘汰

  6. Claude Code Skill 装太多会降触发准确率:装 30+ 个 Skill 实测触发准确率掉到 50% 以下,官方建议 20-30 个且贴自己工作流。筛选唯一标准”能不能替我每天省掉一步手动动作”,注意”Setup Porn”陷阱——来源:2026-05-11-claude-code-6-skills

  7. AI 编程正在从提示词技巧升级为上下文资产管理:Claude Code、Codex、Manus 等 harness 的差异不如 agents.mdmemory.md、Skill 文件与 MCP 连接方式重要;真正可迁移的生产力来自上下文、记忆、工具和技能组合成的数字团队系统——来源:2026-05-13-ai-agent-productivity-20x

  8. Skills 已成为跨 Agent 平台的通用协议:从 2025-10-16 Anthropic 首发到 2025-12-18 开放标准,Codex/Cursor/OpenClaw/Hermes 等十余个 Agent 全面支持,Skills 成为 AI 时代相当于 npm 的技能分发标准——来源:2026-05-20-agent-skills-intro-claude-opus

  9. description 字段是 Skills 触发的唯一门控:90% 的 Skill 未被触发是因为 description 不够具体;黄金写法:[功能]+[执行动作]+[触发关键词],用祈使句,不超过 500 字;含 3 条约束 + 1 个输出示例可使稳定性提升 60%(Anthropic 内部数据)——来源:2026-05-20-agent-skills-intro-claude-opus

  10. Skill 的标准工程骨架是 SKILL.md 驱动、资源目录按需加载SKILL.md 负责总控,scripts/ 放可执行代码,references/ 放规范文档,assets/ 放模板与素材;真正的工程优势不只是”会触发”,而是能靠渐进式披露把大体量规范拆成随取随用的知识层,既保持约束密度,又不把上下文一次性塞满——来源:2026-05-21-agent-skills-woshipm

  11. 多 Agent 并存时 Skill 应统一中央管理:Claude Code、Cursor、OpenClaw 等每个 Agent 都有独立 Skills 文件夹,导致重复安装、版本漂移、不知道自己有什么 Skill。解决方案是用软链接把所有 Agent 的 skills 目录统一指向一个 SharedSkills 中央文件夹——改一处全部同步,新 Skill 自动对所有 Agent 生效。更深层的理由:Skill 是 AI 时代里少有的确定性资产,其价值曲线与 AI 进化轨道独立,需要稳定基础设施沉淀和进化——来源:2026-05-27-woshipm-central-skill-symlink

  12. 写 Skill 的核心方法论是”先跑通再封装”而不是”先设计”:Agent 任务复杂度涉及脚本、工具调用、文件读取、subagent 分工,很多流程很难一开始就完整设计。云舒”上百个 Skill”的实战经验给出四步作业流程:跑通(和 AI 定目标、跑出真实场景)→ 复盘(讨论正向 vs 负向流程、哪些应该沉淀)→ 封装(让 AI 基于复盘结果做封装)→ 回溯测试(开新对话验证稳定性)。本质是从凭想象设计走向从实践中提炼——来源:2026-05-27-woshipm-yunshu-skill-practical-guide

  13. Skill 的三层渐进式加载机制 + 熟悉/不熟悉领域元判断:Agent 调用 Skill 不是一上来就把全部内容塞给模型,而是分层加载:第一层 name+description(触发判断)→ 第二层 SKILL.md(主流程)→ 第三层 references/scripts/assets(按需补充)。判断一个场景能否 Skill 化:熟悉领域走经验蒸馏;不熟悉领域看能否建立回溯验证机制(六爻占卜失败 vs 编程自动化测试成功)——来源:2026-05-27-woshipm-yunshu-skill-practical-guide

  14. Vibe Coding 把 AI 编程的门槛从”会写代码”挪到”讲得清需求”:产品经理不写代码、用自然语言 + 产品思维驱动 AI 完成从调研到上线的全流程,五个产品+两个企业级 0→1 全程跑通。关键不是工具怎么用,是苏格拉底式 PRD 追问法(AI 一次一问往深处挖隐含需求)+ 原型三阶段顺序(先定设计语言→做最难一页→基准铺开)+ CLAUDE.md 入职手册的数据飞轮机制(# 指令沉淀个人规则,目标 150 行)。“模糊的需求,必然产生模糊的产品”是核心反面教训——来源:2026-05-27-pm-vibe-coding-5-products

  15. Trae IDE + Skill 可构建本地化 AI 阅读助手:字节 Trae IDE 无需科学上网,通过 Prompt 定义 Skill 即可实现完整的个性化读书工作流——双层偏好建模(历史标注 + 主动申报)→ 三阶阅读解析(全书概览 → 章节逻辑 → 逐章精读)→ PDF 报告导出。本地部署解决了云端读书工具的数据护城河问题,文件大小基本不设限,扫描版 PDF 也能处理——来源:2026-05-27-woshipm-personalized-ai-reading-assistant

  16. Codex 从设计素材工具升级为完整产品开发平台:非技术背景 AI PM 用 Codex + GPT-5.5 半天开发 macOS 原生 App(番茄时钟”专注时刻”),验证 Codex 在产品级代码开发场景的可行性。核心工作流是”手搓原型 → Gemini 生成 PRD → PRD + 设计稿图片一起丢给 Codex”——上下文越完整,AI 输出越接近预期。AI 卡壳时(macOS 液态玻璃效果),用另一个 AI 查资料整理线索再引导主 AI 查官方文档,10 分钟解决——来源:2026-05-27-woshipm-codex-product-dev-lessons

  17. AGENTS.md 是上下文资产体系中成本最低但收益最高的一个:5 分钟写一份 60-100 行的项目规范文件(技术栈+目录+编码规范+Never 规则+协作约定),AI 代码规范遵循率从 60% 飙升到 95%+,一次通过率从 40% 提升到 80%+,每次手动修正时间从 8 分钟降到 1 分钟。核心机制是”Never 规则持续演进”——每次 AI 犯错就加一条禁令,11 条规则全是真实踩坑积累。AGENTS.md 在 Claude Code 生态中叫 CLAUDE.md,与 DESIGN.md(视觉规范)、AGENTS.local.md(个人偏好)组成三文件体系——来源:2026-05-28-agents-md-coding-standard

  18. 多 Agent 协作需要”共同工作场”而非各自独立的记忆:同时使用 Codex(主力 Agent,复杂任务协调)、Claude Code(代码工程和内容创作)、WorkBuddy(日常任务)的用户,面临的核心问题是”它们经常彼此不知道对方做过什么”——不是 AI 不够聪明,而是缺少共同工作场。AI Workshop 用”共享核心文档 + 各助手专属入口”的设计,将 USER.md、WORKFLOW.md、CURRENT.md 作为共同事实源,各 AI 的入口文件只做适配和指引。关键设计是”轻量启动,按需加深”——借鉴 Skill 调用的渐进式披露思路,日常任务只读 3 份文件,跨 Agent 协作再加载制度文档,具体项目先查 PROJECTS.md 索引再深入,类似图书馆检索系统——来源:2026-05-28-woshipm-ai-workshop-multi-agent-collaboration

  19. LLM Wiki 的四层架构揭示了”知识编译”的工程路径:本地知识库不是 RAG 的简单替代,而是四层分工——用户层(决定读什么)→ LLM 层(按 CLAUDE.md 行为规范执行 ingest/query/lint)→ CLI 层(bin/wiki 语义命令封装 qmd 检索引擎,避免 LLM 直接操作底层参数)→ 系统层(raw 只读 + wiki 可写 + shared 跨域 + qmd 索引)。关键设计:CLAUDE.md 不是配置文件而是行为规范手册(六维内容),长文档不读全文而是用 search-chunks 按块检索+WIP 续传(处理完一个主题就落盘避免上下文爆),六域分类按”命题”分不按”学科”分——来源:2026-05-28-woshipm-llm-wiki-qmd-architecture

  20. Codex 官方 11 条高阶技巧定义了”AI 工作助理”的操作范式:OpenAI Codex 团队成员系统性梳理了把 Codex 从”写代码工具”升级为”持续运转的 AI 工作助理”的六大关键能力——① Durable Threads(长期对话串)让决策历史和工作进度跨会话保留,核心洞察是”真正耗时的是重新交代背景”;② Steering(实时修正方向)+ Queuing(排入下一步不打断当前任务)双机制实现连续工作流;③ 四层工具扩展(in-app browser → Chrome Extension → Computer Use → MCP servers)按复杂度逐级升级;④ Goals 将任务目标定义为”可验证的完成条件”而非模糊指令;⑤ Side Panel 在同一界面预览 PDF/表格/简报等产出物;⑥ Shared Memory 用 Obsidian vault/Git/Dropbox 持久存储长期工作脉络,Codex Memories 作为辅助回忆层——来源:2026-05-28-codex-11-tips

  21. 零基础 PM 用 Claude Code 6 周独立交付 8.5 万行代码的完整产品:Shawn 用 62,376 次对话验证了”不写代码的 PM + Claude Code = 能发版的完整产品”,沉淀了 5 步工作流(想清楚→User Story→Claude 写→review→测试,比例反转:PM 想 1 晚 > Claude 写 10 分钟)+ 多窗口并行开发 + 273 行 CLAUDE.md 数据飞轮 + 版本注册表测试(测完整性而非正确性)+ 23 case eval 框架(PM 出题+跨 provider 对比)。Computer Use 5 层安全防御和”模型试图打开钥匙串”的教训,重新定义了 AI 编程的安全底线——来源:2026-05-29-woshipm-shawn-abu-claude-code-6-weeks

  22. 规格驱动 + AI 生成的两段式开发是搭建生产级 RAG 的有效范式:先用 Claude Code 输出约 440 行的实现方案文档(含架构、目录树、LangGraph 十节点状态机、API 路由与数据模型),再按方案逐模块生成 Monorepo 代码。配合通义千问(qwen3.6-plus 对话 + text-embedding-3-large 向量)+ Milvus 混合检索,100 元人民币搭出包含评测面板的生产级 RAG 平台。核心教训:真正的敌人是静默失败——14 个 Bug 中最耗时的不是明确报错,而是检索 0 条、向量维度 silently mismatch、LangChain baseUrl 配置被忽略。Embedding 维度一致性、相似度阈值实测、API 兼容写法是上线前三必查项——来源:2026-05-31-woshipm-100rmb-production-rag

  23. Vibe Coding 的天花板可通过 7 Agent 软件工厂突破:当单一 AI 对话要求同时扮演 6+ 角色时,错误在混乱中累积(“第 1 天像魔法,第 30 天监督时间超过自己写代码”)。解决方案是把工作拆给 7 个专责 Agent(研究员→故事撰写者→规格撰写者→后端建造者→前端建造者→测试验证者→验证员),每个拥有单一职责、干净上下文窗口和严格工具权限边界。3 个人类审核点(核准故事→核准简报→核准 PR)取代全程监督,人类专注于判断力环节。核心隐性收益:Agent 职责隔离天然防控上下文漂移——错误假设被限制在单个 Agent 内,不会传播——来源:2026-05-31-blocktempo-7-agents-software-factory

  24. Playwright CLI 接入 Claude Code 实现浏览器自动化是 Token 效率最优方案:Chrome DevTools MCP 每个工具描述很长,占用大量上下文 Token;Playwright CLI 由 Claude Code 直接调用脚本,Token 消耗大幅降低。三大实战场景验证可行性:QA 自动测试闭环(AI 写应用→Playwright 测试→发现 Bug→自动修复→重测)、网页信息抓取(遇到反爬自动切换搜索引擎)、登录态社区自动化(persistent profile 保持 Cookie,经 4-5 次迭代后脚本稳定)。核心洞察是”脚本迭代模式”——首次运行几乎不可能完美,但 AI 能从截图和错误中自动分析并更新脚本。浏览器自动化脚本可封装为 Skill 配合定时任务实现全自动执行——来源:2026-06-03-youtube-claude-code-playwright-browser-automation

  25. Codex 与 Claude Code 的差异本质是”执行者”与”创意伙伴”的角色分化:三个同 prompt 实验(研究报告 PDF、落地页、Dashboard)量化验证——Claude Code 在 Dashboard 任务上 2 分钟 / 283k tokens 完成(Codex 8 分钟 / 1.64M tokens),前端设计质量明显领先(暗色模式、动画、字体质感);Codex 在研究型任务上更快更省(2.8M tokens vs 4.7M tokens),output tokens 始终精简 2-5 倍导致更慢触达订阅额度上限。两者功能高度重叠(都支持 MCP、hooks、子代理、Skills、work trees),真正差异在于定制化深度(Claude Code 30 个 hook 事件 vs Codex 6 个)和平台政策(OpenAI 公开支持第三方 Agent 框架用 ChatGPT 订阅,Anthropic 明确禁止)。最佳策略不是二选一,而是用 Claude Code 做规划/头脑风暴/复杂前端,用 Codex 做执行/review/研究密集型任务——来源:2026-06-03-youtube-codex-vs-claude-code-comparison

  26. Hermes Agent 通过”Cron + Telegram + 自我进化”三机制重新定义个人 AI 助手定位:与 Claude Code(深度编码主力,90% 知识工作)和 OpenClaw(跨 SaaS 工作流编排)形成三分格局——Claude Code 是桌前驾驶舱,Hermes 是移动遥控器。五支柱架构(Memory / Skills / Soul / Cron / Self-Improving Loop)让 Agent 随使用越来越懂用户;Cron 是核心差异化能力,Claude Code Routines 每天限 15 次,Hermes 无限制,实测 YouTube 评论监控(每 10 分钟检查 12 小时)、nightly GitHub sync、server security sweeps 等。多 Agent 扩展遵循”是否需要独立记忆/权限/调度”决策树,用 Docker 容器隔离防止 Key 串用——来源:2026-06-03-hermes-agent-setup-guide

  27. Agent 工程的瓶颈不在模型,在环境——三层认知翻转决定 Agent 能否上生产:半年研究 Anthropic/OpenAI/LangChain 工程复盘后提炼的三层障碍。第一层”看不见”:早期 Coding Agent 写完代码就停了不会验证,接入 Chrome DevTools Protocol 后单次任务自主工作超 6 小时——真正的杠杆在 Prompt 之外的环境感知基础设施。第二层”知识放错了地方”:把所有规则塞进超长 agents.md 会适得其反,正确做法是”给 Agent 一张地图而不是一本千页说明书”——小 agents.md 当目录,详细知识拆到子目录按需读取。第三层”多 Agent 拆分幻觉”:按人类组织结构拆分 Agent 是最低效方式(反复解释背景消耗的 Token 超过干活的 Token),正确拆分以上下文为中心——只有当两个任务的上下文可以真正隔离时拆分才有意义。不在仓库里的东西对 Agent 就不存在——来源:2026-06-10-agent-engineering-guide

素材汇总

素材核心贡献详见
Kimi K2.5 视频转代码实战Video2Code 录视频即需求 + Image2Code 截图精修 + Kimi Code 终端 Agent,半小时跑通品牌独立站2026-06-10-kimi-k25-video2code-frontend
Agent 工程完全指南三层认知翻转:Agent 看不见环境 / 知识放错地方 / 多 Agent 拆分幻觉,瓶颈在环境不在模型2026-06-10-agent-engineering-guide
历经17个版本 AI Skill 落地17版本迭代打磨AI Skill:浏览器→API架构转型、假成功校验闭环、5种券类型独立知识域、工程化细节决定体验断崖2026-06-09-ai-skill-coupon-landing
天气MCP三维度评测POI定位精度·100天超长预报·token成本仅墨迹1/5,揭示垂直MCP从接口封装升级为数据深度竞争2026-06-09-woshipm-weather-mcp-comparison
Codex vs Claude Code 深度对比三场同prompt实验量化:Dashboard 2min vs 8min、output tokens 精简2-5倍、执行者vs创意伙伴角色分化2026-06-03-youtube-codex-vs-claude-code-comparison
Hermes Agent 从零搭建完整教程五支柱架构+Cron核心差异化+Telegram移动办公+VPS部署+多Agent扩展决策树2026-06-03-hermes-agent-setup-guide
7 Agent 软件工厂7 个专责 Agent + 3 个人类审核点 + 工具权限隔离 + 上下文漂移防控2026-05-31-blocktempo-7-agents-software-factory
Claude Code + Playwright 浏览器自动化Playwright CLI Token效率优势 + QA自动测试闭环 + 登录态社区自动化 + Skill封装定时执行2026-06-03-youtube-claude-code-playwright-browser-automation
Codex 桌面版 + Ollama 本地模型Ollama v0.24.0 一个指令接入本地模型,免费无限使用 Codex,5 款推荐模型2026-06-02-koc-ollama-codex-local-model
零基础PM用Claude Code 6周造出AI桌面应用5步工作流+多窗口并行+CLAUDE.md数据飞轮+版本注册表+eval框架2026-05-29-woshipm-shawn-abu-claude-code-6-weeks
一百块搭出生产级 RAG规格驱动两段式开发+Milvus混合检索+LangGraph十节点+静默失败排查2026-05-31-woshipm-100rmb-production-rag
OpenAI Codex 團隊成員分享:11 個技巧Codex 官方团队 11 条高阶使用框架:Durable Threads / Steering+Queuing / Goals / Shared Memory2026-05-28-codex-11-tips
一份 AGENTS.md,让 AI 代码规范率从 60% 飙升到 95%AGENTS.md 项目规范文件 + Never 规则演进机制 + 三文件体系2026-05-28-agents-md-coding-standard
本地多Agent协作系统 AI Workshop多 Agent 共享工作区机制(USER.md + WORKFLOW.md + CURRENT.md)2026-05-28-woshipm-ai-workshop-multi-agent-collaboration
LLM Wiki实战篇:少花token,多沉淀知识qmd 四层架构 + CLAUDE.md 行为规范 + search-chunks 按块检索2026-05-28-woshipm-llm-wiki-qmd-architecture
从0开始vibe codingPM 不写代码用自然语言驱动 AI 完成从调研到上线全流程2026-05-28-woshipm-vibe-coding-cold-start-offline
用Codex独立开发产品Codex + GPT-5.5 半天开发 macOS 原生 App,上下文越完整越接近预期2026-05-27-woshipm-codex-product-dev-lessons
为所有 Agent 统一 Skill 库软链接中央管理 SharedSkills,Skill 是跨 Agent 的确定性资产2026-05-27-woshipm-central-skill-symlink
Skill 实操教程”先跑通再封装”四步法 + 元判断模型(熟悉/不熟悉领域)2026-05-27-woshipm-yunshu-skill-practical-guide
PM 一个人跑通五个产品Vibe Coding 苏格拉底式 PRD 追问法 + CLAUDE.md 入职手册数据飞轮2026-05-27-pm-vibe-coding-5-products
Trae IDE 构建本地化 AI 阅读助手双层偏好建模 + 三阶阅读解析 + 数据主权2026-05-27-woshipm-personalized-ai-reading-assistant
Agent Skills 万字干货Skills 标准手册 + 渐进披露 + description 黄金公式2026-05-20-agent-skills-intro-claude-opus
Agent Skills 全景教程SKILL.md 驱动工程骨架 + 三层渐进式加载2026-05-21-agent-skills-woshipm
Agent harness + 上下文资产AI 编程从提示词技巧升级为上下文资产管理2026-05-13-ai-agent-productivity-20x
Claude Code Skills 精选30+ Skill 触发准确率掉到 50% 以下,建议控制 20-30 个2026-05-11-claude-code-6-skills

AI 核心概念体系

16 个关键概念一网打尽

类别核心概念
基础概念大模型、温度、提示词、Token、API Key
模型技术模型蒸馏、多模态、上下文信息
高级技术RAG 检索增强生成、Embedding、思维链 CoT、ReAct
系统架构智能体 Agent、智能体工作流、MCP

RAG 标准工作流

企业文档 → Embedding 向量化 → 向量数据库存储
                                     ↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答

三大 AI 开发框架

场景推荐框架核心优势
Java 企业应用Spring AI无缝集成 Spring 生态
智能体开发LangChain4j完整 Agent 工具链
复杂工作流LangGraph图结构可视化编排

Spring AI

LangChain4j

学习建议:两个都要学,先从 Spring AI 学起,再学 LangChain4j 会更简单。

LangGraph

  • 特点:用图的结构组织和管理 AI 工作流
  • 适用:构建有状态、多代理的企业级 AI 大项目
  • 比喻:多个 AI 智能体分工协作(文字、图片、排版),LangGraph 是项目负责人安排工作流程

核心技术栈矩阵

VSCode 生态

方案模型来源特点成本
Roo Code + DeepSeek API云端多模型兼容,灵活切换API 按量计费
Roo Code + Ollama本地数据安全,隐私保护免费
通义灵码阿里云编程场景优化,中文好免费

PyCharm 生态

方案实现特点
CodeGPT + Ollama + deepseek-r1:1.5b本地 1.5b 参数模型1-2 秒响应,零成本
CodeGPT + 硅基流动 DeepSeek API云端更好的代码质量

独立 AI 编程 Agent

工具代表功能
Cursor最早的全文件 AI 编程 IDE,Agent 模式
Cline (VSCode/VS)多文件自动修改工程级 Agent

AI 编程高级技巧

Prompt 质量决定输出质量

基本优化四要素

  1. 明确 AI 的角色定位
  2. 提供具体的细节要求
  3. 拆解任务
  4. 提供示例

进阶技巧:AI 生成高质量 Prompt

  • 先把自己手写的 Prompt 扔给其他 AI
  • 让它帮你生成一段质量更高、结构化的需求文档
  • 再喂给 Cursor 去生成网站

完整需求文档五大要素

  • 明确项目背景和目标
  • 详细列出功能要求和技术栈
  • 指定代码风格和架构模式
  • 提供示例和参考资料
  • 明确限制条件和边界场景

复杂项目:三步迭代法

第一步:生成基础可运行框架

  • 用 Cursor Agent 模式 + 高级推理模型
  • 目标:生成基础项目框架,确保能跑起来就行
  • 暂时不管功能好不好用

第二步:逐个实现核心功能

  • 划分模块和功能点
  • 依次向 AI 提问
  • 逐步实现核心功能并验证可用性

第三步:优化实现细节

  • 在不影响功能的前提下
  • 优化代码结构、性能、可读性

三大常见问题及解决方案

问题现象解决方案
上下文有限项目信息量不断增大,AI 忘记之前信息项目模块化,大项目分割成小项目
改 A 坏 BAI 生成代码不可控,连带修改明确限定修改范围,仅修改指定文件
代码重复布局一样的页面重复代码适当提醒 AI 抽象为可复用组件

生命线:Git 版本控制

必须遵守的纪律:

  • 每正确生成一个功能后提交一次版本
  • 每次 AI 生成新代码后人工对比改动文件
  • 出问题快速还原到之前版本,防止代码丢失

四大 AI 核心业务领域

1. RAG 知识库

用途:构建企业自己的问答系统或客服,基于企业真实数据作答,更准确贴合实际。

学习重点(面试高频考点)

  • 向量数据库:Milvus、PGVector
  • 文档管道:抽取 / 转换 / 加载
  • 索引构建策略
  • 查询优化方法

2. 多模态

融合处理文本、图像、音频、视频等多种数据模态,提高产品易用性和创意空间。

需要学习

  • 模态转换技术:TTS(文本转语音)、STT(语音转文本)、OCR(光学字符识别)
  • 都是现成工具库或云服务,掌握调用方法即可
  • Spring AI、LangChain 等框架已支持多模态大模型调用

3. MCP 模型上下文协议

Model Context Protocol,模型上下文协议。

两大技能

  1. 接入别人的 MCP 服务增强自己项目
  2. 开发自己的 MCP 服务供别人使用

4. ReAct 智能体

构建智能体的开发范式,打造能够依据推理自主采取行动的 AI 系统。

开发涉及知识:任务规划、工具调用、交互 I/O、异常处理

两大工具调用方式

  1. Function Call
  2. MCP

AI 工具链大全

1. 低代码平台:Dify

  • 拖拉拽方式构建 AI 智能体
  • 创建知识库导入文档
  • 搭建复杂工作流
  • 不会写代码也能搞复杂 AI 应用

2. 开发工具库

工具用途
Apache Tika强大的文件解析器,支持 PDF、Word、Excel、PPT 等
Playwright模拟浏览器行为,运行网页、抓取网页数据、自动化测试
GSON / KryoJSON 格式解析库
jsoupHTML 文档解析

3. 部署平台与技术

大厂云服务:优先选择,追求稳定性,不在意价格。

个人学习 / 快速上线平台

平台适用场景优势
Vercel前端应用自动构建、在线浏览、CDN 分发、免费域名
Sealos云原生应用Kubernetes 集群管理,容器化部署,弹性伸缩
RailwayDocker 容器无需操心服务器配置运维,自带自动化构建工具

必备技术:Docker 容器化技术。像 APP 安装包,轻松分发和部署应用程序。

五大应用场景详解

场景一:IDE 原生 AI 助手

主流方案对比

Roo Code(原 Continue)

  • 支持:OpenAI/Claude/DeepSeek/Gemini 全系列
  • 支持 Ollama 本地模型接入
  • 深度集成 VSCode,左侧边栏对话
  • 开源免费

通义灵码

  • 专门针对编程场景做优化
  • 底座:Qwen 2.5-Max,全球排名第七(1332 分)
  • 2.0 版本核心:AI 程序员模式
  • 核心能力:多文件代码修改、选中段修改、对比差异、接受/拒绝交互
  • 完全免费,是 DeepSeek API 不稳定时的最佳替代

场景二:本地大模型编程环境

核心优势

  1. 代码不上传第三方,数据安全有保障
  2. 完全免费,没有 API 成本
  3. 延迟更低,1-2 秒快速响应
  4. 适合公司内网、涉密项目开发

推荐配置(普通电脑无 GPU)

IDE: PyCharm Community Edition(免费)
插件: CodeGPT(免费)
模型运行:[[Ollama]](免费)
模型: deepseek-r1:1.5b(小参数但质量惊艳)
响应速度: 1-2 秒
总成本: 0 元

场景三:AI 架构图和绘图

最佳组合:Cursor + Claude 4

五大绘图方法

方法工具适用场景推荐度
文本绘图Mermaid 作图日常文档流程图、时序图★★★★★
文本绘图PlantUML专业 UML 图、复杂架构图★★★★☆
网页绘图HTML+SVG+Canvas数据可视化、动态图表★★★☆☆
专业工具AI + draw.io复杂架构、学习路线图★★★★☆
创意绘图Emoji趣味展示、文档装饰★★☆☆☆

场景四:AI 游戏开发和独立开发

经典案例深度解析

  • Pieter Levels 3 小时开发 Fly.pieter 飞行游戏
  • 10 天收入 28 万人民币,1.6 万玩家
  • 支持近 2000 人同时在线
  • 整个游戏只有一个 HTML 文件

核心启示

  • 技术不是瓶颈,需求和营销才是
  • 70 多个项目只成功 4 个,快速试错才是王道
  • AI 解决代码问题,人类解决需求问题

场景五:AI 全栈 App 开发

推荐方案:DeepSeek + Cline Agent

Cline 能力

  • Visual Studio 插件
  • AI 驱动,真正的全自动编程 Agent
  • 支持读取、修改、创建工程文件
  • 支持执行终端命令

场景六:Claude Code Skill 工作流增强

Claude Code 的 Skill 机制按需加载,不用时不占上下文。通用类 3 个精选 Skill:

Skill Creator(官方元技能)

  • 主动问流程怎么跑,帮你写 SKILL.md + 生成测试用例
  • 10 多个独立来源把它放在起点,几乎所有教程开篇都是它
  • 典型指令:“把我昨天手动跑的选题流程打包成 skill”

Planning with Files(社区,13,410 Stars)

  • 解决长文/长代码”写到后面忘开头”的问题
  • 强制 Claude 先写 task_plan.md,每两步更新 findings.md / progress.md
  • 给 Claude 外挂硬盘记事,对话再长也不会忘自己在干什么

Document & Presentation Skills(官方全家桶)

  • PDF/Word/Excel/PPT 一句话转换
  • 典型场景:23 页 PDF → 10 页品牌色 Slide

选择原则:控制总量 20 个以内确保触发准确率;手动跑同一任务 3 次以上再用 Skill Creator 打包;警惕”Setup Porn”(拿配置当拖延借口)。——来源:2026-05-11-claude-code-6-skills

场景七:自己制作 Skills(从 0 到 1)

从工程结构看,一个成熟 Skill 的最小完整骨架不是单文件,而是 SKILL.md 负责总控,scripts/ 放可执行逻辑,references/ 放按需加载的规则文档,assets/ 放模板和素材资源。这样的拆分能让 Agent 先理解“任务边界与流程”,再按需取用细节,避免把全部规范一次性塞进上下文。——来源:2026-05-21-agent-skills-woshipm

四阶段工作流(来源:2026-05-20-agent-skills-intro-claude-opus2026-05-21-agent-skills-woshipm):

阶段核心动作关键输出
1. 明确需求与边界回答”解决什么问题、触发词是什么、需要什么资源”单一职责定义
2. 构建文件夹创建 SKILL.md + 按需创建 scripts/、references/、assets/标准文件结构
3. 编写核心指令描述职责边界 + 编号操作步骤 + 输入输出规范 + 硬性约束高质量 SKILL.md
4. 测试与迭代路径检查、YAML 校验、触发测试、执行验证可用 Skill

关键质量指标

  • description 黄金公式:[一句话核心功能] + [具体执行动作] + [明确的触发关键词/场景]
  • 稳定性提升配方:3 条明确约束(必须/严禁/总是)+ 1 个输出示例 → 稳定性提升 60%
  • 调试方法:claude --debug 查看加载日志,90% 触发失败原因是 description 不够具体

常用 Skills 资源

  • Anthropic 官方:https://github.com/anthropics/skills
  • 全球注册表:agentskills.io
  • 开源兼容包:github.com/numman-ali/openskills(兼容多平台)
  • 其他市场:skillsmp.com、skillsdirectory.com、skillhub.tencent.com

场景八:上百个 Skill 实战之后的作业流程升级

云舒(2026-05-27-woshipm-yunshu-skill-practical-guide)写了上百个 Skill 后给出更具体的作业升级:Agent 时代不能”先设计再验证”,必须”先跑通再封装”——因为任务复杂度涉及脚本、工具调用、文件读取、subagent 分工,凭想象设计的流程跟真实跑出来的差距太大。

四步作业流程

阶段关键动作容易踩的坑
1. 跑通和 AI 定好目标 → 把真实场景跑出来(不需完美)追求一开始就完美,反而跑不通
2. 复盘和 AI 讨论:哪些是正向流程 / 哪些是负向流程 / 哪些内容应该沉淀跳过这步直接封装等于凭想象做产品
3. 封装让 AI 基于复盘结果进行 Skill 封装不让 AI 写,手写容易脱离真实经验
4. 回溯开新对话测试稳定性,不稳定就定位问题不做回溯永远不知道 Skill 是否真的可复用

像产品一样迭代:每次优化前问两个问题——①根本要解决的问题是什么(边界守护,不要做着做着过界);②当前最明显的不足是什么(焦点守护,这次只解决一个最明显的问题)。云舒的两个真实案例:多视角深度分析 Skill 1.0→3.0 解决稳定性/数量问题但拒绝做 4.0 万能化;PPT Skill 1.0→4.0 解决能不能做→样式→适配→自动化,每一步只攻一个问题。

元判断模型——哪些场景值得 Skill 化

  • 熟悉领域 → 经验蒸馏:把脑子里”会做”的拆成 AI 能执行的流程
  • 不熟悉领域 → 看能否建立回溯验证机制:能验证则可做(编程自动化测试案例),不能验证则放弃(六爻占卜案例:自己不懂、AI 也不懂,打磨半月放弃)

场景九:Trae IDE 构建本地化 AI 阅读助手

阿润(2026-05-27-woshipm-personalized-ai-reading-assistant)用字节 Trae IDE 构建了一个完整的个性化阅读 Skill,展示了 Skill 在非编程场景的潜力——AI 编程工具不只是写代码,更是构建本地化 AI 工作流的平台

核心架构

  • 数据层:reading_resource/(已读书籍)+ user_profile.md(主动申报画像)+ preference_cache.md(缓存)
  • 处理层:双层偏好建模 → 三阶阅读解析(全书概览→章节逻辑→逐章精读)→ PDF 导出
  • 迭代层:读完后的对话导出 Markdown 存回文件夹,又变成下一轮的参考材料

与 Vibe Coding 的互补关系:Vibe Coding(场景七)是用 AI 做产品,Trae 阅读助手是用 IDE 做个人知识工具——两者共同指向同一个趋势:IDE + Skill 正在成为通用的 AI 工作流构建平台,其应用边界远超编程本身。

工具选型决策树

你需要 AI 编程吗?
├─ 是
│  ├─ 代码敏感 / 公司项目?
│  │  ├─ 是 → 本地部署:Ollama + deepseek-r1:1.5b
│  │  └─ 否
│  │     ├─ 预算充足?
│  │     │  ├─ 是 → Cursor Pro / GitHub Copilot
│  │     │  └─ 否
│  │     │    ├─ VSCode 用户 → Roo Code + DeepSeek API
│  │     │    └─ JetBrains 用户 → CodeGPT + DeepSeek API
│  │     └─ 想体验中文优化?→ 通义灵码
│  └─ 需要工程级自动修改?→ Cline Agent + DeepSeek
│
│  需要开发 AI 应用?
│  ├─ 快速原型 / 不会代码 → Dify 低代码平台
│  ├─ Java 企业项目 → Spring AI
│  ├─ 复杂智能体 → LangChain4j
│  └─ 多 Agent 工作流 → LangGraph
└─ 否 → 传统编程

行业趋势和未来判断

当前状态(2026)

  1. 大模型写代码能力已经超过大部分初级程序员
  2. 单文件开发非常成熟,多文件修改还需人工引导
  3. Agent 级自动编程正在快速成熟
  4. 国内模型(DeepSeek/Qwen)代码能力已经赶上甚至超越国际模型
  5. AI 时代,所有的传统业务都值得利用 AI 重塑一遍,这是程序员的机会

未来 1-2 年预判

  1. 程序员角色转变:从写代码的人变成验证代码质量的人,从码农变成 AI 操控师
  2. 一人公司爆发:单人利用 AI 就能做完整产品的创业者会大量出现
  3. 本地模型普及:主流笔记本都能跑够用的代码模型,数据安全不再是顾虑
  4. 自然语言编程成为主流:会写提示词比会写具体代码更重要

对开发者的建议

  1. 拥抱而不是恐惧:AI 是工具,用得好它会帮你,而不是替代你
  2. 建立自己的工具链:云端 + 本地的组合方案,应对不同场景
  3. 提升需求理解和系统设计能力:这些是 AI 短期内难以替代的
  4. 学会快速验证和迭代:第一版丑没关系,能跑起来最重要
  5. 关注营销和运营能力:酒香也怕巷子深,技术强只是基础
  6. 学习 AI 应用开发:不仅会用 AI 工具开发项目,还要能自主开发 AI 项目,把 AI 能力接入自己的项目

相关页面