RAG(Retrieval-Augmented Generation 检索增强生成)
让 LLM 从外部知识库实时检索信息再生成回复,解决"模型知识过时"和"幻觉"两大痛点的核心技术范式。
定义
RAG = Retrieval(检索)+ Augmentation(增强)+ Generation(生成)。用户提问 → 将问题转向量 → 在外部知识库(向量数据库 / 关键词索引)检索相关片段 → 把检索结果连同问题一并喂给 LLM → LLM 基于真实文档生成回答。
由 Meta(Facebook AI Research)的 Patrick Lewis 等于 2020 论文 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 提出。
技术细节
完整 RAG 管线包含 6 个阶段:
- 文档解析(Parsing):PDF / DOCX / HTML → 纯文本(LlamaIndex LlamaParse / RAGFlow DeepDoc)
- 分块(Chunking):按段落 / 语义 / 滑动窗口切片
- 嵌入(Embedding):用嵌入模型(如 text-embedding-3、BGE)把片段转向量
- 存储(Storage):向量入 向量数据库(Pinecone / Weaviate / Milvus / Infinity)
- 检索(Retrieval):查询向量化 → 相似度 / 混合检索(Dense + Sparse)→ Top-K 片段
- 重排(Reranking):用 Cross-Encoder 模型重排,提升精度
- 生成(Generation):把检索片段拼到 prompt → LLM 生成回复
主要玩家
- 专业框架:LlamaIndex(RAG 精专)/ LangChain(通用 + RAG 模块)
- 低代码平台:Dify / Coze / FastGPT
- 垂直 RAG 引擎:RAGFlow(文档深度理解)/ Anything LLM
- 向量数据库:Pinecone / Weaviate / Milvus / Chroma / Qdrant / Infinity
在 AI 产业链中的角色
RAG 是企业 AI 落地的"必备组件"——大多数企业知识库、智能客服、文档问答场景都依赖 RAG,是 4-03 子行业最大的细分。
演进历史
- 2020 Meta 提出原始 RAG 论文
- 2023 RAG 成为企业 AI 落地的标准范式
- 2024 GraphRAG / Multi-hop RAG / Self-RAG 等高级模式涌现
- 2025 向"Agentic RAG"演进 — 让 Agent 自主决定何时检索 / 多轮检索
相关概念
∈ belongs_to::4-03-模型生态与工具链