RAG 知识库

Retrieval Augmented Generation，检索增强生成技术，让 AI 基于特定知识回答问题

简介

RAG（检索增强生成）是一种结合检索和生成的 AI 技术架构。它通过从外部知识库检索相关信息，再将检索结果提供给大模型作为上下文，使大模型能够基于特定知识生成更准确的回答。

核心工作流程

企业文档 → Embedding 向量化 → 向量数据库存储
                                     ↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答

关键技术组件

1. 文档处理管道

文档加载：支持 PDF、Word、Excel、PPT 等多种格式
文本切分：按语义或固定长度切分文档
元数据提取：标题、作者、日期等信息

2. Embedding 向量化

将文本转换为高维向量
语义相似的文本在向量空间中距离相近
支持多种 Embedding 模型

3. 向量数据库

高效存储海量向量
支持近似最近邻（ANN）检索
可扩展的索引结构

4. 检索策略

相似度检索
混合检索（关键词 + 向量）
重排序机制
结果融合

不同素材中的观点

来自 2026-04-29-yupi-ai-guide-core-concepts：

RAG 是检索 + 生成两阶段技术
利用外部知识库给 AI 补充知识
回答更准确，减少幻觉
16 个核心概念之一

来自 2026-04-29-yupi-ai-guide-programming-tech：

构建企业自己的问答系统或客服
基于企业真实数据作答，更准确贴合实际
是 AI 编程开发的四大核心业务领域之一

来自 2026-05-17-ai-pm-interview-claude-workflow：

个人也应该给自己建RAG知识库，而不只是帮公司做。简历是第一份语料、项目复盘文档是第二份、面试转录是第三份、笔记是第四份
当这些语料持续喂给Claude，它从通用助手变成个人面试教练——知道你做过什么项目、踩过什么坑、答崩过哪道题
“为什么选RAG不选微调”是AI PM面试中被问频率最高的题之一（38场面试中被问5次以上），说明RAG vs 微调的选型判断是行业共识级考点
搭建个人AI教练的成本是0元，核心是持续积累结构化语料

来自 2026-05-17-pm-ai-knowledge-base-design-practice：

本地RAG已经足以验证“文档可对话”的核心价值，但一旦要满足手机访问和多人协作，就必须从单机实验升级为云端产品
知识库产品的关键不只是“检索到段落”，而是把语义理解能力接入文件管理、权限、上传下载和多端访问等完整产品流程
作者用Ollama + Dify + 本地模型做了原型验证，最终选择带REST API和Docker部署能力的Yuxi，体现了RAG从技术方案走向产品化落地的路径
在20位知识工作者的非正式调研中，87%经常找不到已存文档内容、63%会因为找不到而重复整理资料，这说明RAG知识库首先解决的是知识可达性与复用率问题

来自 2026-05-21-woshipm-ai-knowledge-base-product-design：

这篇素材把 RAG 知识库的问题定义进一步明确为“语义理解缺失导致的知识不可达”：用户真正痛的不是没存资料，而是资料虽然存在却无法按问题意图被找回
本地 RAG 只能证明“文档可对话”，但要成为产品还必须补上多端访问、多人协作、权限治理、上传下载与检索双模式等完整系统能力
作者用成本40% / 可扩展性25% / 部署维护复杂度20% / 文档社区15%的权重做技术选型，说明 RAG 产品落地不仅是模型问题，更是工程可交付性与组织适配问题
在20位知识工作者的非正式调研中，87%经常找不到已存文档内容、63%会因找不到而重复整理，说明RAG知识库首先解决的是知识复用率与可达性问题

来自 2026-05-18-woshipm-ai-knowledge-management-design-practice：

这篇素材进一步把RAG知识库的价值从“回答问题”推进到“重建知识可达性”：用户真正痛的不是没存资料，而是资料命名缺乏语义、导致无法按意图找回
作者先用Ollama + Dify + 本地模型验证了RAG对文档问答的可行性，但很快暴露出单机方案无法支撑手机访问、多人共享和免安装使用，说明RAG产品的真正门槛在交付形态而不只是检索效果
从产品化视角看，RAG系统必须接入文件上传下载、用户认证、权限治理、移动端体验和API能力，才能从“桌面盆栽”变成组织级知识基础设施
Yuxi之所以胜出，不是因为概念上更先进，而是因为REST API、流式输出、Docker部署和知识图谱/向量检索结合，更适合把RAG能力嵌入完整业务流程

来自 2026-05-18-woshipm-ai-pm-interview-2-questions：

本文把 RAG 放进 AI PM 面试的智能客服幻觉治理场景中，强调“用 RAG”不是完整答案，只是“四层防火墙”的第二层“给 AI 找课本”
RAG 要真正降低幻觉，前提是产品手册、FAQ、退款指南等知识库本身结构化、准确、可维护；如果知识库内容错误，模型只是更有依据地答错
面试官常会追问“怎么确保 RAG 检索到的内容准确”“知识库本身有错误怎么办”，这说明 RAG 选型能力必须和知识库治理、来源标注、人工反馈、线上监控一起表达
智能客服场景中的完整闭环是：边界约束先决定什么不能答，RAG 决定能答时依据什么答，人工错题本决定错了如何改，监控指标决定线上何时预警

来自 2026-05-27-woshipm-ai-ecommerce-kol-agent：

RAG 在电商 AI 导购场景被升级为”测评真实性的合规底线”：Elaine.H 的”达人帮你挑”PRD 把测评知识层定义为”独立的结构化存储 + RAG 检索增强生成方式，确保生成的测评摘要 100% 基于真实测评内容，避免捏造观点”。这把 RAG 从”检索增强能力”升级为”防止 AI 捏造达人观点的工程保障”，是 RAG 价值的一次重要扩展
RAG 的合规闭环：置信度校验 + 事后抽检 + 来源标注：本文给出 RAG 在面向 C 端用户的内容生成场景中的完整合规设计——生成时进行置信度校验（不确定的内容不输出）、事后抽检（系统抽样人工复核）、所有生成内容添加”AI 生成”标识、测评摘要标注”基于达人过往测评整理”。这套机制比单纯”用 RAG”更进一步，是 RAG 走向高合规场景（医疗/金融/电商代言）的工程模板
多模态结构化解析是 RAG 测评库的供给侧：本文提到”多模态大模型能力已实现商用落地，可自动完成达人测评视频、图文内容的结构化解析，批量提取商品评价维度、正负向观点、核心判断原句”——这把 RAG 的数据准备从”文档切片+Embedding”扩展到”视频/图文结构化抽取+维度归一化”，是 RAG 在 UGC/PGC 内容驱动场景的关键基础设施
RAG 与 Agent / Skills 分层的协作模式：在 Agent 9 步处理流程中，“Step6 任务拆解与编排”会调度独立的”测评检索 Skill”通过 RAG 拉取 KOL 测评，再调度”风格复刻 Skill”注入达人口吻——RAG 不再是独立产品，而是 Agent 调度链路中的一个原子 Skill，这是 RAG 在多技能 Agent 架构下的标准位置

来自 2026-05-31-woshipm-100rmb-production-rag：

100 元人民币可搭出生产级 RAG 平台：Claude Code 生成方案与代码 + 通义千问（qwen3.6-plus 对话 + text-embedding-3-large 向量）提供推理能力，全链路 API 花费约 100 元。系统包含多格式文档入库、Milvus 混合检索（稠密 1024 维 + BM25 稀疏）、LangGraph 十节点状态机、评测面板（命中率/MRR/忠实度/相关性）与企业级前端
生产级 RAG 的核心闭环：classify → decompose/rewrite → HyDE（可选）→ retrieve → rerank → compress → generate → evaluate，评估不通过可回退重写。单轮”检索 + 生成”在复杂问题上容易漏召回或幻觉，分类、HyDE、Rerank、自纠正与置信度评估构成可调优闭环
真正的敌人是静默失败：14 个 Bug 中最耗时的不是明确报错，而是检索 0 条、配置被忽略、向量维度 silently mismatch。生产 RAG 的上限由 Embedding 兼容性、向量库 Schema、阈值与评测闭环决定，而不是 Prompt 质量
四层排查策略（可复用）：存储层（Milvus count / PostgreSQL 一致性）→ 向量层（vector length / 索引存在性）→ API 层（独立脚测 Base URL / 延迟 / 维度）→ 管道层（retrieve 条数与 score / 阈值与 Rerank），用 A/B 最小脚本做对比测试一锤定音

来自 2026-05-27-通过codex解析Agent工作流程：

RAG 解决的三大核心问题被清晰归纳为：知识过时（模型知识停在训练截止日）、记忆容量限制（长文档突破上下文窗口）、幻觉（AI 凭空编造）——这三个问题的优先级排列方式与产品经理实际评估 RAG 是否该引入的决策路径一致
普通知识库 vs 向量知识库的区分用了一个生动比喻：普通库是”书架模式”，只能按关键词找，容易漏；向量库是”智能索引员”，提前把文本转成数字指纹（向量），通过语义匹配找到意思相近的内容。这个对比对非技术人员理解 RAG 的价值非常直观
RAG 工作流程的完整闭环被拆解为：文档分片 → 向量化 → 相似度比对 → 分片召回 → 拼成增强版提示词 → 模型基于材料作答——其中”巧妙绕过了窗口限制”这一点是很多技术文章容易忽略的 RAG 设计优势
Codex 中 RAG 的实际使用方式被演示为：创建向量知识库 → 导入长文档 → 提问时系统自动调用知识库内容作答，且明确指出”事实来源来自知识库文件，最终表述经过 LLM 总结”——这个”事实来源 vs 最终表述”的分离是理解 RAG 产品责任归属的关键认知

来自 2026-05-31-notebooklm-x-gemini：

NotebookLM 是 RAG 架构在个人知识管理场景的典型落地：与企业级 RAG 不同，NotebookLM 面向个人用户，让用户上传 PDF、网页、YouTube 视频等资料后，仅基于这些资料回答问题，并精确标注每句话的出处（如”这句话来自第 4 份文件第 3 页”）。这验证了 RAG 不仅适用于企业场景，个人知识管理同样是高价值落地场景
RAG + 推理模型的分层架构：NotebookLM（RAG 层）负责精准检索，Gemini（推理层）负责深度分析——这种”记忆 + 思考”的分离是 RAG 架构从”工具”走向”工作流”的关键一步。把外部报告和个人资料同时放入 NotebookLM，再用 Gemini 问”这份报告对我有没有用？“是 RAG 在个人知识管理中的高阶用法
RAG 产品效果取决于输入质量：“这招准不准，取决于你的内部资料有没有先准备好”——RAG 检索的上限是输入资料的质量和覆盖面，这与企业 RAG 中”知识库内容错误，模型只是更有依据地答错”的结论一致

学习重点（面试高频考点）

1. 向量数据库选型

Milvus：开源高性能向量数据库
PGVector：PostgreSQL 向量扩展
Chroma：轻量级本地向量库
Pinecone：云原生向量数据库服务

2. 文档管道优化

抽取：不同格式文档的解析策略
转换：文本清洗和标准化
加载：批量导入和增量更新

3. 索引构建策略

索引类型选择
分片和分区
性能调优参数

4. 查询优化方法

查询重写
多轮检索
结果排序
上下文压缩

实用信息

典型应用场景

企业内部知识库问答
客服机器人
文档智能检索
法律/医疗专业问答
产品手册查询

开发工具

Apache Tika：强大的文件解析器
LangChain4j：Java RAG 框架
Spring AI：Spring 生态 RAG 支持
Dify：低代码 RAG 平台

个人知识库

探索

RAG 知识库

RAG 知识库

简介

核心工作流程

关键技术组件

1. 文档处理管道

2. Embedding 向量化

3. 向量数据库

4. 检索策略

不同素材中的观点

学习重点（面试高频考点）

1. 向量数据库选型

2. 文档管道优化

3. 索引构建策略

4. 查询优化方法

实用信息

典型应用场景

开发工具

相关页面

关系图谱

快速导航

目录

反向链接