Embedding 嵌入

将文本、图像等非结构化数据转换为高维向量表示的技术

简介

Embedding（嵌入）是一种将非结构化数据（文本、图像、音频等）转换为高维向量表示的技术。在向量空间中，语义相似的内容会被映射到相近的位置，这使得计算机能够理解和计算数据之间的语义关系。

RAG 技术的核心组件之一：

标准 RAG 工作流：

企业文档 → 文本切分 → Embedding 向量化 → 向量数据库存储
                                                   ↓
用户提问 → Embedding 向量化 → 检索相似文档 → 大模型综合回答

向量维度一致性是生产 RAG 最隐蔽的故障源：通义千问 text-embedding-3-large 经百炼接口实际输出 1024 维，若 Milvus Schema 按 OpenAI 默认写成 3072 维，Milvus 可能仍能插入但检索静默返回 0 条——无报错。上线检查清单第一项必须是”Embedding 模型输出维度 == 向量库 Schema dim”，且变更模型后必须重建集合
不同模型的 COSINE 分数分布差异巨大：通义 v3 直接 search Top5 分数仅 0.26–0.45，若参照 OpenAI 经验设定阈值 0.7 则全部被过滤。正确做法是上线前用独立脚本测自家模型在自家语料上的分数区间，不能照搬任何外部经验值
LangChain 接入国内 Embedding API 的配置陷阱：@langchain/openai 的 baseUrl 参数会被忽略，必须使用 configuration: { baseURL: '...' } 写法，否则请求静默打到 api.openai.com 超时或返回异常向量