GraphRAG
将知识图谱与向量检索结合的高级 RAG 范式,由 Microsoft Research 2024 推广,擅长处理需多步推理与跨文档关联的复杂问题。
定义
GraphRAG = Graph(知识图谱)+ RAG(检索增强生成)。与传统"向量相似度 Top-K"检索不同,GraphRAG 先用 LLM 从文档抽取实体 + 关系构建知识图谱,再在图谱上做层次化摘要、社区检测、子图检索,让 LLM 能回答"主题级"、"跨文档关联"类问题。
技术细节
构建阶段:
- 实体抽取:LLM 从文档中识别人、组织、概念等实体
- 关系抽取:识别实体间关系
- 社区检测:Leiden 等算法识别紧密相关的实体群
- 摘要生成:为每个社区生成 LLM 摘要
查询阶段:
- 本地查询:基于实体邻居的精确问答
- 全局查询:基于社区摘要的主题级问答
- 混合查询:结合向量检索与图谱推理
主要玩家
- Microsoft Research — GraphRAG 论文 + 开源实现
- LlamaIndex — Knowledge Graph Index
- Neo4j / NebulaGraph — 图数据库底座
在 AI 产业链中的角色
GraphRAG 是 RAG 的高级形态,特别适合:
- 多步推理问题:"X 与 Y 有什么间接关系?"
- 主题级总结:"这一千份文档的主要观点是什么?"
- 跨文档关联:实体在多个文档间的关联追踪
但成本(构建知识图谱)显著高于传统 RAG,2024-25 仍在落地探索期。
演进历史
- 2024-04-24 Microsoft Research 论文 "From Local to Global: A Graph RAG Approach to Query-Focused Summarization" arXiv 发布(arXiv:2404.16130,T1)
- 2024-07-02 Microsoft Research 开源代码(GitHub
microsoft/graphrag)正式发布(Microsoft Research blog 2024-07,T1) - 2024-25 主流 RAG 框架引入 GraphRAG 模块
已废弃叙述
2026-05-29 数字订正:开源日期 "2024-04 论文与开源代码发布" → 拆分为论文 2024-04-24、开源代码 2024-07-02(依据 Microsoft Research 官方 blog + arXiv,T1)
- 2024-04 Microsoft Research 论文与开源代码发布
相关概念
∈ belongs_to::4-03-模型生态与工具链