RAG 知识库

Retrieval Augmented Generation,检索增强生成技术,让 AI 基于特定知识回答问题

简介

RAG(检索增强生成)是一种结合检索和生成的 AI 技术架构。它通过从外部知识库检索相关信息,再将检索结果提供给大模型作为上下文,使大模型能够基于特定知识生成更准确的回答。

核心工作流程

企业文档 → Embedding 向量化 → 向量数据库存储
                                     ↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答

关键技术组件

1. 文档处理管道

  • 文档加载:支持 PDF、Word、Excel、PPT 等多种格式
  • 文本切分:按语义或固定长度切分文档
  • 元数据提取:标题、作者、日期等信息

2. Embedding 向量化

  • 将文本转换为高维向量
  • 语义相似的文本在向量空间中距离相近
  • 支持多种 Embedding 模型

3. 向量数据库

  • 高效存储海量向量
  • 支持近似最近邻(ANN)检索
  • 可扩展的索引结构

4. 检索策略

  • 相似度检索
  • 混合检索(关键词 + 向量)
  • 重排序机制
  • 结果融合

不同素材中的观点

来自 2026-04-29-yupi-ai-guide-core-concepts

  • RAG 是检索 + 生成两阶段技术
  • 利用外部知识库给 AI 补充知识
  • 回答更准确,减少幻觉
  • 16 个核心概念之一

来自 2026-04-29-yupi-ai-guide-programming-tech

  • 构建企业自己的问答系统或客服
  • 基于企业真实数据作答,更准确贴合实际
  • 是 AI 编程开发的四大核心业务领域之一

来自 2026-05-17-ai-pm-interview-claude-workflow

  • 个人也应该给自己建RAG知识库,而不只是帮公司做。简历是第一份语料、项目复盘文档是第二份、面试转录是第三份、笔记是第四份
  • 当这些语料持续喂给Claude,它从通用助手变成个人面试教练——知道你做过什么项目、踩过什么坑、答崩过哪道题
  • “为什么选RAG不选微调”是AI PM面试中被问频率最高的题之一(38场面试中被问5次以上),说明RAG vs 微调的选型判断是行业共识级考点
  • 搭建个人AI教练的成本是0元,核心是持续积累结构化语料

来自 2026-05-17-pm-ai-knowledge-base-design-practice

  • 本地RAG已经足以验证“文档可对话”的核心价值,但一旦要满足手机访问和多人协作,就必须从单机实验升级为云端产品
  • 知识库产品的关键不只是“检索到段落”,而是把语义理解能力接入文件管理、权限、上传下载和多端访问等完整产品流程
  • 作者用Ollama + Dify + 本地模型做了原型验证,最终选择带REST API和Docker部署能力的Yuxi,体现了RAG从技术方案走向产品化落地的路径
  • 在20位知识工作者的非正式调研中,87%经常找不到已存文档内容、63%会因为找不到而重复整理资料,这说明RAG知识库首先解决的是知识可达性与复用率问题

来自 2026-05-21-woshipm-ai-knowledge-base-product-design

  • 这篇素材把 RAG 知识库的问题定义进一步明确为“语义理解缺失导致的知识不可达”:用户真正痛的不是没存资料,而是资料虽然存在却无法按问题意图被找回
  • 本地 RAG 只能证明“文档可对话”,但要成为产品还必须补上多端访问、多人协作、权限治理、上传下载与检索双模式等完整系统能力
  • 作者用成本40% / 可扩展性25% / 部署维护复杂度20% / 文档社区15%的权重做技术选型,说明 RAG 产品落地不仅是模型问题,更是工程可交付性与组织适配问题
  • 在20位知识工作者的非正式调研中,87%经常找不到已存文档内容、63%会因找不到而重复整理,说明RAG知识库首先解决的是知识复用率与可达性问题

来自 2026-05-18-woshipm-ai-knowledge-management-design-practice

  • 这篇素材进一步把RAG知识库的价值从“回答问题”推进到“重建知识可达性”:用户真正痛的不是没存资料,而是资料命名缺乏语义、导致无法按意图找回
  • 作者先用Ollama + Dify + 本地模型验证了RAG对文档问答的可行性,但很快暴露出单机方案无法支撑手机访问、多人共享和免安装使用,说明RAG产品的真正门槛在交付形态而不只是检索效果
  • 从产品化视角看,RAG系统必须接入文件上传下载、用户认证、权限治理、移动端体验和API能力,才能从“桌面盆栽”变成组织级知识基础设施
  • Yuxi之所以胜出,不是因为概念上更先进,而是因为REST API、流式输出、Docker部署和知识图谱/向量检索结合,更适合把RAG能力嵌入完整业务流程

来自 2026-05-18-woshipm-ai-pm-interview-2-questions

  • 本文把 RAG 放进 AI PM 面试的智能客服幻觉治理场景中,强调“用 RAG”不是完整答案,只是“四层防火墙”的第二层“给 AI 找课本”
  • RAG 要真正降低幻觉,前提是产品手册、FAQ、退款指南等知识库本身结构化、准确、可维护;如果知识库内容错误,模型只是更有依据地答错
  • 面试官常会追问“怎么确保 RAG 检索到的内容准确”“知识库本身有错误怎么办”,这说明 RAG 选型能力必须和知识库治理、来源标注、人工反馈、线上监控一起表达
  • 智能客服场景中的完整闭环是:边界约束先决定什么不能答,RAG 决定能答时依据什么答,人工错题本决定错了如何改,监控指标决定线上何时预警

来自 2026-05-27-woshipm-ai-ecommerce-kol-agent

  • RAG 在电商 AI 导购场景被升级为”测评真实性的合规底线”:Elaine.H 的”达人帮你挑”PRD 把测评知识层定义为”独立的结构化存储 + RAG 检索增强生成方式,确保生成的测评摘要 100% 基于真实测评内容,避免捏造观点”。这把 RAG 从”检索增强能力”升级为”防止 AI 捏造达人观点的工程保障”,是 RAG 价值的一次重要扩展
  • RAG 的合规闭环:置信度校验 + 事后抽检 + 来源标注:本文给出 RAG 在面向 C 端用户的内容生成场景中的完整合规设计——生成时进行置信度校验(不确定的内容不输出)、事后抽检(系统抽样人工复核)、所有生成内容添加”AI 生成”标识、测评摘要标注”基于达人过往测评整理”。这套机制比单纯”用 RAG”更进一步,是 RAG 走向高合规场景(医疗/金融/电商代言)的工程模板
  • 多模态结构化解析是 RAG 测评库的供给侧:本文提到”多模态大模型能力已实现商用落地,可自动完成达人测评视频、图文内容的结构化解析,批量提取商品评价维度、正负向观点、核心判断原句”——这把 RAG 的数据准备从”文档切片+Embedding”扩展到”视频/图文结构化抽取+维度归一化”,是 RAG 在 UGC/PGC 内容驱动场景的关键基础设施
  • RAG 与 Agent / Skills 分层的协作模式:在 Agent 9 步处理流程中,“Step6 任务拆解与编排”会调度独立的”测评检索 Skill”通过 RAG 拉取 KOL 测评,再调度”风格复刻 Skill”注入达人口吻——RAG 不再是独立产品,而是 Agent 调度链路中的一个原子 Skill,这是 RAG 在多技能 Agent 架构下的标准位置

来自 2026-05-31-woshipm-100rmb-production-rag

  • 100 元人民币可搭出生产级 RAG 平台:Claude Code 生成方案与代码 + 通义千问(qwen3.6-plus 对话 + text-embedding-3-large 向量)提供推理能力,全链路 API 花费约 100 元。系统包含多格式文档入库、Milvus 混合检索(稠密 1024 维 + BM25 稀疏)、LangGraph 十节点状态机、评测面板(命中率/MRR/忠实度/相关性)与企业级前端
  • 生产级 RAG 的核心闭环:classify → decompose/rewrite → HyDE(可选)→ retrieve → rerank → compress → generate → evaluate,评估不通过可回退重写。单轮”检索 + 生成”在复杂问题上容易漏召回或幻觉,分类、HyDE、Rerank、自纠正与置信度评估构成可调优闭环
  • 真正的敌人是静默失败:14 个 Bug 中最耗时的不是明确报错,而是检索 0 条、配置被忽略、向量维度 silently mismatch。生产 RAG 的上限由 Embedding 兼容性、向量库 Schema、阈值与评测闭环决定,而不是 Prompt 质量
  • 四层排查策略(可复用):存储层(Milvus count / PostgreSQL 一致性)→ 向量层(vector length / 索引存在性)→ API 层(独立脚测 Base URL / 延迟 / 维度)→ 管道层(retrieve 条数与 score / 阈值与 Rerank),用 A/B 最小脚本做对比测试一锤定音

来自 2026-05-27-通过codex解析Agent工作流程

  • RAG 解决的三大核心问题被清晰归纳为:知识过时(模型知识停在训练截止日)、记忆容量限制(长文档突破上下文窗口)、幻觉(AI 凭空编造)——这三个问题的优先级排列方式与产品经理实际评估 RAG 是否该引入的决策路径一致
  • 普通知识库 vs 向量知识库的区分用了一个生动比喻:普通库是”书架模式”,只能按关键词找,容易漏;向量库是”智能索引员”,提前把文本转成数字指纹(向量),通过语义匹配找到意思相近的内容。这个对比对非技术人员理解 RAG 的价值非常直观
  • RAG 工作流程的完整闭环被拆解为:文档分片 → 向量化 → 相似度比对 → 分片召回 → 拼成增强版提示词 → 模型基于材料作答——其中”巧妙绕过了窗口限制”这一点是很多技术文章容易忽略的 RAG 设计优势
  • Codex 中 RAG 的实际使用方式被演示为:创建向量知识库 → 导入长文档 → 提问时系统自动调用知识库内容作答,且明确指出”事实来源来自知识库文件,最终表述经过 LLM 总结”——这个”事实来源 vs 最终表述”的分离是理解 RAG 产品责任归属的关键认知

来自 2026-05-31-notebooklm-x-gemini

  • NotebookLM 是 RAG 架构在个人知识管理场景的典型落地:与企业级 RAG 不同,NotebookLM 面向个人用户,让用户上传 PDF、网页、YouTube 视频等资料后,仅基于这些资料回答问题,并精确标注每句话的出处(如”这句话来自第 4 份文件第 3 页”)。这验证了 RAG 不仅适用于企业场景,个人知识管理同样是高价值落地场景
  • RAG + 推理模型的分层架构:NotebookLM(RAG 层)负责精准检索,Gemini(推理层)负责深度分析——这种”记忆 + 思考”的分离是 RAG 架构从”工具”走向”工作流”的关键一步。把外部报告和个人资料同时放入 NotebookLM,再用 Gemini 问”这份报告对我有没有用?“是 RAG 在个人知识管理中的高阶用法
  • RAG 产品效果取决于输入质量:“这招准不准,取决于你的内部资料有没有先准备好”——RAG 检索的上限是输入资料的质量和覆盖面,这与企业 RAG 中”知识库内容错误,模型只是更有依据地答错”的结论一致

学习重点(面试高频考点)

1. 向量数据库选型

  • Milvus:开源高性能向量数据库
  • PGVector:PostgreSQL 向量扩展
  • Chroma:轻量级本地向量库
  • Pinecone:云原生向量数据库服务

2. 文档管道优化

  • 抽取:不同格式文档的解析策略
  • 转换:文本清洗和标准化
  • 加载:批量导入和增量更新

3. 索引构建策略

  • 索引类型选择
  • 分片和分区
  • 性能调优参数

4. 查询优化方法

  • 查询重写
  • 多轮检索
  • 结果排序
  • 上下文压缩

实用信息

典型应用场景

  • 企业内部知识库问答
  • 客服机器人
  • 文档智能检索
  • 法律/医疗专业问答
  • 产品手册查询

开发工具

  • Apache Tika:强大的文件解析器
  • LangChain4j:Java RAG 框架
  • Spring AI:Spring 生态 RAG 支持
  • Dify:低代码 RAG 平台

相关页面