ClaudeCode 的 172 个应用场景(2):内容抓取与素材处理
作者 Aaron 系统梳理了 Claude Code 在内容创作上游——素材获取、归档、提炼、反哺创作四大环节的 15 个实战场景,核心论点:内容创作的前提是内容资产化,Claude Code 是素材工程的最佳载体。
基本信息
- 来源:人人都是产品经理
- 作者:Aaron
- 发布时间:2026-06-09
- 原始链接:https://www.woshipm.com/share/6410261.html
- 系列:ClaudeCode 的 172 个应用场景(第 2 篇,第 1 篇讲内容创作)
核心观点
- 内容创作的真正瓶颈在上游:写作只是后半段,前半段——素材从哪来、怎么抓、怎么归档、怎么提炼——才是长期坚持不了的痛点。人工复制粘贴格式乱、图片丢、正文不完整,收藏之后基本不会再看
- “不只收藏,要抓下来”原则:收藏夹里的内容大多数最后不会看。真正有用的内容应该进入知识库,变成可检索、可总结、可复用的文件。Claude Code 可以把公众号、网页、GitHub、播客、视频、付费专栏等多源信息自动抓取、清洗、归档
- 批量内容必须结构化:几百篇文章只是存成 Markdown 价值有限,必须继续做分类、打标、摘要和场景抽取。结构化之后,内容才从”资料堆”变成”素材库”
- 素材要和业务线接起来:抓文章不是为了囤资料,而是服务后续写作、培训、咨询和产品设计。每篇文章应能回答”能变成什么选题?能支持哪个观点?能进哪个案例库?”
- Claude Code 更适合做素材工程:普通 AI 聊天工具也能总结文章,但 Claude Code 能做完整素材工程——抓网页、读文件、跑脚本、批量处理、生成 JSON、写入 Obsidian 或飞书
四大素材处理环节
一、单篇抓取(场景 1-4)
| 场景 | 输入 | 输出 | 价值 |
|---|---|---|---|
| 公众号文章抓取 + 结构化总结 | 一个或多个公众号 URL | 正文(JSON/Markdown)+ 核心论点/关键洞察/案例/启发 | 不需自己先读完全文,先压缩再判断 |
| 资讯/纪要网站文章页抓取与站内搜索 | 文章链接 或 网站+关键词 | 正文 或 搜索结果列表(标题/作者/日期/URL) | 自动化原本手动点网页、复制链接、整理表格的动作 |
| 长报告/长文速读总结 | 几万字全文(PDF/Markdown) | 按章节结构的摘要 + 核心判断/关键数据/重要案例 | 不替代深读,而是降低判断成本 |
| 播客/视频转录文本提炼 | 播客转录文本/访谈稿/docx | 节目摘要/核心观点/金句/可转文章的选题/归档结构 | 音视频从”听过就忘”变可检索可复用素材资产 |
二、批量归档(场景 5-8)
| 场景 | 输入 | 输出 | 价值 |
|---|---|---|---|
| 批量公众号迁移进 Obsidian | 十几个链接或历史文章列表 + 知识库路径 | YYYY-MM-DD_标题.md,正文前带元信息(标题/作者/公众号/时间/链接) | 不用手动逐篇复制粘贴 |
| 公众号全量爬取 + CSV 转 Markdown | 公众号账号、cookie、token | 文章元数据 CSV + 每篇正文 Markdown | 公众号从”只能在线浏览”变”本地可检索知识库” |
| 网页/GitHub 长内容完整抓取入库 | 网页链接、GitHub 仓库、提取范围 | 完整正文 + 按行业/项目拆好的知识库文档 | 资料沉淀先全量再摘要,不拿片段冒充全量 |
| 付费专栏内容提取入飞书 | 付费专栏链接、文章列表、目标路径 | 完整正文+图片+链接列表,直接写入飞书 | 购买内容不再散落平台,可检索/总结/引用 |
三、结构化提炼(场景 9-14)
| 场景 | 输入 | 输出 | 关键规则 |
|---|---|---|---|
| 海量公众号文章并行打标分类 | 标题/摘要/正文节选 + 分类标准 | 严格 JSON 数组:财务/AI/财务AI/都不相关 | 不能只靠关键词匹配,需语义判断 |
| 从文章抽取”场景+用法”清单 | 批量财务AI文章 + 提取规则 | 结构化 JSON,每篇输出真实提到的场景和 AI 用法 | 只提取文章确实写到的,不脑补不扩展 |
| 小红书笔记+多级评论抓取 | 笔记链接/搜索关键词 | 结构化 JSON(标题/作者/正文/赞藏数/评论+多级回复) | 从真实评论提取一手需求 |
| 逐篇摘要 + “曾俊视角”选题角度 | 文件夹里多篇公众号文章 | 标题/来源/核心主题/关键点 + “对XX的潜在选题角度” | 看完就能沉淀选题 |
| 多博主数据分析找爆款规律 | 多个博主文章 Excel | 高互动主题规律/TOP文章分布/标题类型分析 | 选题不再靠拍脑袋 |
| 素材库摸底/清理 + 历史文章提炼 | 公众号文章文件夹/Obsidian 目录 | 删除/标记无关内容 + 按主题整理 + 提炼可复用技巧 | 旧内容可被重新激活 |
四、反哺创作(场景 15)
| 场景 | 输入 | 输出 | 价值 |
|---|---|---|---|
| 抓取文章 → Mermaid 流程图 + 产品深挖 | 产品拆解文章/工具介绍链接 | Mermaid 流程图 + 核心流程/成本结构/产品壁垒分析 | 不只读懂文章,还能快速形成产品判断 |
实操内容保留
(本文无实操代码/模板/步骤——文章以场景梳理为主,未给出具体 Claude Code 命令或 prompt 模板)
原文精彩摘录
上一篇讲的是内容创作。但真正做内容的人都知道,写作只是后半段。前半段更麻烦的是:素材从哪里来?公众号文章怎么抓?小红书评论怎么拿?GitHub 项目怎么读?长报告怎么消化?几百篇文章怎么分类?这些东西如果都靠人工复制、阅读、整理,基本不可能长期坚持。
这套体系里有几个关键原则。1. 不要只收藏,要抓下来——收藏夹里的内容,大多数最后都不会再看。2. 不要只抓正文,要保留结构——标题、作者、发布时间、来源链接、摘要、标签、主题分类都应该一起保留。3. 批量内容必须结构化——几百篇文章如果只是存成 Markdown,价值有限。必须继续做分类、打标、摘要和场景抽取。4. 素材要和业务线接起来——每篇文章最好都能回答一个问题:它能变成什么选题?能支持哪个观点?能进入哪个案例库?5. Claude Code 更适合做素材工程——普通 AI 聊天工具也可以总结一篇文章,但 Claude Code 更适合做完整素材工程。
内容创作的前提是内容资产化。没有稳定的素材输入和整理流程,后面的写作一定会越来越虚。
关键概念
- Claude Code — 素材工程的核心执行工具
- AI内容创作 — 素材处理是内容创作的上游环节
- 知识库构建 — 素材归档的终极目标形态
与其他素材的关联
- 与 2026-05-11-claude-code-6-skills 的关联:6 Skills 篇聚焦 Claude Code 内部 Skill 使用(SEO Blog Writer / Newsletter Automation / Content Repurposer),本篇则展示 Claude Code 在 Skill 之外更底层的素材抓取与工程能力
- 与 2026-05-28-woshipm-llm-wiki-qmd-architecture 的关联:LLM Wiki 篇展示了 Claude Code 作为知识库维护者的架构设计,本篇从实际使用场景角度说明素材如何进入知识库
- 与 2026-05-17-content-creator-20-tips 的关联:20 Tips 篇提出”判断力是核心竞争力”,本篇则解决了”判断的前提——有足够素材可判断”的上游问题