ClaudeCode 的 172 个应用场景（2）：内容抓取与素材处理

作者 Aaron 系统梳理了 Claude Code 在内容创作上游——素材获取、归档、提炼、反哺创作四大环节的 15 个实战场景，核心论点：内容创作的前提是内容资产化，Claude Code 是素材工程的最佳载体。

基本信息

来源：人人都是产品经理
作者：Aaron
发布时间：2026-06-09
原始链接：https://www.woshipm.com/share/6410261.html
系列：ClaudeCode 的 172 个应用场景（第 2 篇，第 1 篇讲内容创作）

核心观点

内容创作的真正瓶颈在上游：写作只是后半段，前半段——素材从哪来、怎么抓、怎么归档、怎么提炼——才是长期坚持不了的痛点。人工复制粘贴格式乱、图片丢、正文不完整，收藏之后基本不会再看
“不只收藏，要抓下来”原则：收藏夹里的内容大多数最后不会看。真正有用的内容应该进入知识库，变成可检索、可总结、可复用的文件。Claude Code 可以把公众号、网页、GitHub、播客、视频、付费专栏等多源信息自动抓取、清洗、归档
批量内容必须结构化：几百篇文章只是存成 Markdown 价值有限，必须继续做分类、打标、摘要和场景抽取。结构化之后，内容才从”资料堆”变成”素材库”
素材要和业务线接起来：抓文章不是为了囤资料，而是服务后续写作、培训、咨询和产品设计。每篇文章应能回答”能变成什么选题？能支持哪个观点？能进哪个案例库？”
Claude Code 更适合做素材工程：普通 AI 聊天工具也能总结文章，但 Claude Code 能做完整素材工程——抓网页、读文件、跑脚本、批量处理、生成 JSON、写入 Obsidian 或飞书

四大素材处理环节

一、单篇抓取（场景 1-4）

场景	输入	输出	价值
公众号文章抓取 + 结构化总结	一个或多个公众号 URL	正文（JSON/Markdown）+ 核心论点/关键洞察/案例/启发	不需自己先读完全文，先压缩再判断
资讯/纪要网站文章页抓取与站内搜索	文章链接或网站+关键词	正文或搜索结果列表（标题/作者/日期/URL）	自动化原本手动点网页、复制链接、整理表格的动作
长报告/长文速读总结	几万字全文（PDF/Markdown）	按章节结构的摘要 + 核心判断/关键数据/重要案例	不替代深读，而是降低判断成本
播客/视频转录文本提炼	播客转录文本/访谈稿/docx	节目摘要/核心观点/金句/可转文章的选题/归档结构	音视频从”听过就忘”变可检索可复用素材资产

二、批量归档（场景 5-8）

场景	输入	输出	价值
批量公众号迁移进 Obsidian	十几个链接或历史文章列表 + 知识库路径	`YYYY-MM-DD_标题.md`，正文前带元信息（标题/作者/公众号/时间/链接）	不用手动逐篇复制粘贴
公众号全量爬取 + CSV 转 Markdown	公众号账号、cookie、token	文章元数据 CSV + 每篇正文 Markdown	公众号从”只能在线浏览”变”本地可检索知识库”
网页/GitHub 长内容完整抓取入库	网页链接、GitHub 仓库、提取范围	完整正文 + 按行业/项目拆好的知识库文档	资料沉淀先全量再摘要，不拿片段冒充全量
付费专栏内容提取入飞书	付费专栏链接、文章列表、目标路径	完整正文+图片+链接列表，直接写入飞书	购买内容不再散落平台，可检索/总结/引用

三、结构化提炼（场景 9-14）

场景	输入	输出	关键规则
海量公众号文章并行打标分类	标题/摘要/正文节选 + 分类标准	严格 JSON 数组：财务/AI/财务AI/都不相关	不能只靠关键词匹配，需语义判断
从文章抽取”场景+用法”清单	批量财务AI文章 + 提取规则	结构化 JSON，每篇输出真实提到的场景和 AI 用法	只提取文章确实写到的，不脑补不扩展
小红书笔记+多级评论抓取	笔记链接/搜索关键词	结构化 JSON（标题/作者/正文/赞藏数/评论+多级回复）	从真实评论提取一手需求
逐篇摘要 + “曾俊视角”选题角度	文件夹里多篇公众号文章	标题/来源/核心主题/关键点 + “对XX的潜在选题角度”	看完就能沉淀选题
多博主数据分析找爆款规律	多个博主文章 Excel	高互动主题规律/TOP文章分布/标题类型分析	选题不再靠拍脑袋
素材库摸底/清理 + 历史文章提炼	公众号文章文件夹/Obsidian 目录	删除/标记无关内容 + 按主题整理 + 提炼可复用技巧	旧内容可被重新激活

四、反哺创作（场景 15）

场景	输入	输出	价值
抓取文章 → Mermaid 流程图 + 产品深挖	产品拆解文章/工具介绍链接	Mermaid 流程图 + 核心流程/成本结构/产品壁垒分析	不只读懂文章，还能快速形成产品判断

实操内容保留

（本文无实操代码/模板/步骤——文章以场景梳理为主，未给出具体 Claude Code 命令或 prompt 模板）

原文精彩摘录

上一篇讲的是内容创作。但真正做内容的人都知道，写作只是后半段。前半段更麻烦的是：素材从哪里来？公众号文章怎么抓？小红书评论怎么拿？GitHub 项目怎么读？长报告怎么消化？几百篇文章怎么分类？这些东西如果都靠人工复制、阅读、整理，基本不可能长期坚持。

这套体系里有几个关键原则。1. 不要只收藏，要抓下来——收藏夹里的内容，大多数最后都不会再看。2. 不要只抓正文，要保留结构——标题、作者、发布时间、来源链接、摘要、标签、主题分类都应该一起保留。3. 批量内容必须结构化——几百篇文章如果只是存成 Markdown，价值有限。必须继续做分类、打标、摘要和场景抽取。4. 素材要和业务线接起来——每篇文章最好都能回答一个问题：它能变成什么选题？能支持哪个观点？能进入哪个案例库？5. Claude Code 更适合做素材工程——普通 AI 聊天工具也可以总结一篇文章，但 Claude Code 更适合做完整素材工程。

内容创作的前提是内容资产化。没有稳定的素材输入和整理流程，后面的写作一定会越来越虚。

关键概念

Claude Code — 素材工程的核心执行工具
AI内容创作 — 素材处理是内容创作的上游环节
知识库构建 — 素材归档的终极目标形态

与其他素材的关联

与 2026-05-11-claude-code-6-skills 的关联：6 Skills 篇聚焦 Claude Code 内部 Skill 使用（SEO Blog Writer / Newsletter Automation / Content Repurposer），本篇则展示 Claude Code 在 Skill 之外更底层的素材抓取与工程能力
与 2026-05-28-woshipm-llm-wiki-qmd-architecture 的关联：LLM Wiki 篇展示了 Claude Code 作为知识库维护者的架构设计，本篇从实际使用场景角度说明素材如何进入知识库
与 2026-05-17-content-creator-20-tips 的关联：20 Tips 篇提出”判断力是核心竞争力”，本篇则解决了”判断的前提——有足够素材可判断”的上游问题

个人知识库

探索

2026-06-09-claude-code-content-scraping-material-processing

ClaudeCode 的 172 个应用场景（2）：内容抓取与素材处理

基本信息

核心观点

四大素材处理环节

一、单篇抓取（场景 1-4）

二、批量归档（场景 5-8）

三、结构化提炼（场景 9-14）

四、反哺创作（场景 15）

实操内容保留

原文精彩摘录

关键概念

与其他素材的关联

关系图谱

快速导航

目录

反向链接