您的位置：首页 > > 教程攻略 > ai资讯 >GraphRAG会成为AI原生应用中RAG的终局吗？

GraphRAG会成为AI原生应用中RAG的终局吗？

来源:互联网 更新时间:2026-05-30 19:12

# LLMs的最大挑战与机会 AI浪潮发展到今天，大模型领域已是百花争鸣，但真正意义上的AI原生应用，其实还处于蛰伏期。无论你是做AI Agent，还是做垂直领域的Chat Bot，**RAG都扮演着不可或缺的角色**。而今天要聊的这款**GraphRAG**，从技术发展脉络来看，很可能正在走向下一个拐点——替代以往的RAG形态，成为**主流的RAG方案**。 GraphRAG会成为AI原生应用中RAG的终局吗？

先说几个关键判断：LLMs面临的最大挑战，同时也是最大的机会，在于如何将其强大的能力扩展到超出训练数据范围的问题上，并在从未见过的数据上取得同样可比的成果。这就为数据调查开辟了全新的可能性，比如在数据集中识别主题和语义概念。本文介绍的GraphRAG，由微软研究院打造，正是增强LLMs能力的一项重要进展。 --- ## 什么是RAG 检索增强生成（RAG），简单来说，就是根据用户的查询去搜索信息，然后把检索结果作为参考，让AI生成回答。这项技术已成为大多数基于LLMs的工具的核心组成部分。目前主流的RAG方法依赖向量相似性进行搜索，而GraphRAG则另辟蹊径——利用LLM生成知识图谱，在处理复杂信息的文档分析时，显著提升了问答性能。这一成果建立在近期研究的基础之上，那些研究已经证明，在**私有数据集**上进行“提示增强”时的巨大潜力。这里需要明确一下，**私有数据集**指的是LLM从未训练过、从未见过的数据，比如企业的专有研究、内部业务文档或通信记录。 **基线RAG**正是为了解决这类问题而诞生的。但实践中发现，它在某些场景下表现并不理想。比如： - 基线RAG难以连接信息点。当回答一个问题需要遍历不同信息片段，通过共享属性来提供新的综合见解时，它的表现往往不尽如人意。 - 基线RAG在面对大数据集合或单个大型文档时，如果被要求全面理解其中的概括性语义概念，效果同样不理想。这个症结在哪里？技术社区正在尝试各种扩展和增强RAG的方法（比如LlamaIndex）。而微软研究院的新方案GraphRAG，则选择了一条不同的道路：用LLM根据私有数据集创建知识图谱。在查询时，这个图谱与图机器学习一起被用来执行提示增强。实验证明，GraphRAG在处理上述两类问题时，展现出了显著的改进——其智能或掌握能力，明显超越了此前应用于私有数据集的其他方法。 --- ## 概述 GraphRAG项目本质上是一个数据管道和转换套件，目标是从非结构化文本中提取出有意义的、结构化的数据，整个过程依赖LLMs的力量。它是一种结构化、分层的RAG方法，与那种简单使用纯文本片段的语义搜索方式相比，完全是另一个维度的升级。具体流程是：先从原始文本中提取知识图谱，然后构建社区层次结构，生成这些社区的摘要，最后在基于RAG的任务中充分利用这些结构。 --- ## GraphRAG 与基线RAG的对比检索增强生成（RAG）本质上是用真实世界的信息来优化LLM的输出。大多数基于LLM的工具都离不开它，而主流的RAG方法（也就是**基线RAG**）依赖向量相似性进行搜索。GraphRAG则引入知识图谱，在推理复杂信息时大幅提升了问答性能。在帮助LLM推理**私有数据集**（如企业专有研究、业务文档或通信）方面，RAG技术已经展现出希望。基线RAG最初就是为了解决这个问题而设计的，但它的问题也很明显： - 连接信息点困难，难以通过共享属性去综合不同片段。 - 全面理解大数据集或单个大型文档中的概括性语义概念时，表现不佳。技术社区一直在探索增强RAG的方法。GraphRAG这条路，是用LLMs根据输入语料库创建知识图谱，再结合社区摘要和图机器学习的输出，在查询时增强提示。最终效果是，GraphRAG在处理上述两类问题时，表现出了更好的智能或掌握能力。 --- ## GraphRAG 过程 GraphRAG建立在先前关于图机器学习和工具的研究基础上。整体流程可以分为三大步： ### 索引 - 将输入语料库切分成一系列TextUnits，这些单元是后续分析的基本单位，也为输出提供了细粒度的引用。 - 用LLM提取TextUnits中的所有实体、关系以及关键主张。 - 采用Leiden技术对图进行层次聚类。每个圆圈代表一个实体（如人、地点或组织），圆圈大小代表实体的度，颜色代表所属的社区。 - 从底向上生成每个社区及其成员的摘要，帮助全面理解数据集。 ### 查询在查询阶段，这些结构被用来为LLM的上下文窗口提供材料。主要的查询模式有两种： - **全局搜索**：利用社区摘要，推理关于语料库的整体问题。 - **局部搜索**：扩展到邻居和关联概念，推理特定实体。 ### 提示调整开箱即用地使用GraphRAG，不一定能拿到最佳结果。强烈建议根据官方文档中的提示调整指南进行针对性优化，这一点非常重要。 --- ## 快速入门如果想快速上手GridRAG系统，可以试试解决方案翻跟斗包，它能提供一套用户友好的端到端Azure资源体验。 --- ## 创建LLM生成的知识图支撑GraphRAG的底层流程，是基于此前在代码库和图机器学习方面的研究： - LLM先处理整个私有数据集，创建源数据中所有实体和关系的引用，进而生成一个知识图谱。 - 然后，利用这个图谱进行自下而上的聚类，按语义簇的层次组织数据（不同颜色表示不同的语义簇）。这种划分方式允许对语义概念和主题进行预总结，有助于对数据集的整体理解。 - 在查询时，这两个结构被用来为LLM上下文窗口提供材料。下图展示了一个知识图谱的可视化示例。每个圆圈代表一个实体（如人、地点或组织），实体大小反映关系数量，颜色表示相似实体的分组。颜色的划分基于图结构的自下而上聚类，使得我们能在不同的抽象层次上回答问题。图3：使用GPT-4 Turbo从私有数据集构建的LLM生成的知识图谱。 --- ## 结果指标上述示例表明，GraphRAG在不同主题领域的多个数据集中，都保持了一致的改进。评估方式是用LLM评分器来判断GraphRAG与基线RAG之间的成对胜者。使用的定性指标包括：全面性（在问题隐含上下文框架内的完整性）、人类授权（提供支持源材料或其他上下文信息）以及多样性（提供不同观点或角度）。初步结果显示，GraphRAG在这些指标上**始终优于**基线RAG。除了相对比较外，还使用了SelfCheckGPT进行绝对真实性测量，确保结果基于源材料的事实、一致且连贯。结果显示，GraphRAG在真实性方面与基线RAG相近。目前团队正在开发一个评估框架，专门测量上述问题类别的性能，包括生成问答测试集的更强大机制，以及准确性和上下文相关性等额外指标。 --- ## 下一步通过结合LLM生成的知识图谱和图机器学习，GraphRAG让我们能够回答那些基线RAG单打独斗时无法触及的重要问题类别。将这项技术应用于社交媒体、新闻文章、工作效率工具以及化学等多个场景后，结果都令人鼓舞。未来计划与客户密切合作，将这项技术推广到更多新领域，同时继续推进指标和评估体系的建设工作。可以期待的是，随着研究的深入，还会有更多内容分享出来。 --- ## 仓库指南这个仓库提供了一种利用知识图谱记忆结构来增强LLM输出的方法。需要说明的是，提供的代码仅作演示用途，并非微软官方正式产品。 --- ## 深入了解 - 关于贡献指南，可以参阅CONTRIBUTING.md。 - 想上手开发GraphRAG，见DEVELOPING.md。 - 欢迎在GitHub Discussions中参与讨论并反馈意见。 --- ## 提示调整再次强调：开箱即用地使用GraphRAG，效果可能达不到预期。强烈建议根据文档中的提示调整指南进行适配。 --- ## 常见问题更多细节请参阅RAI_TRANSPARENCY.md，其中涵盖了以下问题： - 什么是GraphRAG？ - GraphRAG能做什么？ - GraphRAG的预期用途是什么？ - GraphRAG如何评估？使用哪些指标衡量性能？ - GraphRAG的局限性有哪些？用户如何最小化这些局限性？ - 什么操作因素和设置能确保GraphRAG有效且负责任地使用？

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

GraphRAG会成为AI原生应用中RAG的终局吗？

热门资讯

热门手游

相关攻略

热门专题