热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >GraphRAG会成为AI原生应用中RAG的终局吗?

GraphRAG会成为AI原生应用中RAG的终局吗?

来源:互联网 更新时间:2026-05-30 19:12

# LLMs的最大挑战与机会 AI浪潮发展到今天,大模型领域已是百花争鸣,但真正意义上的AI原生应用,其实还处于蛰伏期。无论你是做AI Agent,还是做垂直领域的Chat Bot,**RAG都扮演着不可或缺的角色**。而今天要聊的这款**GraphRAG**,从技术发展脉络来看,很可能正在走向下一个拐点——替代以往的RAG形态,成为**主流的RAG方案**。 GraphRAG会成为AI原生应用中RAG的终局吗? 先说几个关键判断:LLMs面临的最大挑战,同时也是最大的机会,在于如何将其强大的能力扩展到超出训练数据范围的问题上,并在从未见过的数据上取得同样可比的成果。这就为数据调查开辟了全新的可能性,比如在数据集中识别主题和语义概念。本文介绍的GraphRAG,由微软研究院打造,正是增强LLMs能力的一项重要进展。 --- ## 什么是RAG 检索增强生成(RAG),简单来说,就是根据用户的查询去搜索信息,然后把检索结果作为参考,让AI生成回答。这项技术已成为大多数基于LLMs的工具的核心组成部分。目前主流的RAG方法依赖向量相似性进行搜索,而GraphRAG则另辟蹊径——利用LLM生成知识图谱,在处理复杂信息的文档分析时,显著提升了问答性能。这一成果建立在近期研究的基础之上,那些研究已经证明,在**私有数据集**上进行“提示增强”时的巨大潜力。这里需要明确一下,**私有数据集**指的是LLM从未训练过、从未见过的数据,比如企业的专有研究、内部业务文档或通信记录。 **基线RAG**正是为了解决这类问题而诞生的。但实践中发现,它在某些场景下表现并不理想。比如: - 基线RAG难以连接信息点。当回答一个问题需要遍历不同信息片段,通过共享属性来提供新的综合见解时,它的表现往往不尽如人意。 - 基线RAG在面对大数据集合或单个大型文档时,如果被要求全面理解其中的概括性语义概念,效果同样不理想。 这个症结在哪里?技术社区正在尝试各种扩展和增强RAG的方法(比如LlamaIndex)。而微软研究院的新方案GraphRAG,则选择了一条不同的道路:用LLM根据私有数据集创建知识图谱。在查询时,这个图谱与图机器学习一起被用来执行提示增强。实验证明,GraphRAG在处理上述两类问题时,展现出了显著的改进——其智能或掌握能力,明显超越了此前应用于私有数据集的其他方法。 --- ## 概述 GraphRAG项目本质上是一个数据管道和转换套件,目标是从非结构化文本中提取出有意义的、结构化的数据,整个过程依赖LLMs的力量。它是一种结构化、分层的RAG方法,与那种简单使用纯文本片段的语义搜索方式相比,完全是另一个维度的升级。具体流程是:先从原始文本中提取知识图谱,然后构建社区层次结构,生成这些社区的摘要,最后在基于RAG的任务中充分利用这些结构。 --- ## GraphRAG 与基线RAG的对比 检索增强生成(RAG)本质上是用真实世界的信息来优化LLM的输出。大多数基于LLM的工具都离不开它,而主流的RAG方法(也就是**基线RAG**)依赖向量相似性进行搜索。GraphRAG则引入知识图谱,在推理复杂信息时大幅提升了问答性能。在帮助LLM推理**私有数据集**(如企业专有研究、业务文档或通信)方面,RAG技术已经展现出希望。基线RAG最初就是为了解决这个问题而设计的,但它的问题也很明显: - 连接信息点困难,难以通过共享属性去综合不同片段。 - 全面理解大数据集或单个大型文档中的概括性语义概念时,表现不佳。 技术社区一直在探索增强RAG的方法。GraphRAG这条路,是用LLMs根据输入语料库创建知识图谱,再结合社区摘要和图机器学习的输出,在查询时增强提示。最终效果是,GraphRAG在处理上述两类问题时,表现出了更好的智能或掌握能力。 --- ## GraphRAG 过程 GraphRAG建立在先前关于图机器学习和工具的研究基础上。整体流程可以分为三大步: ### 索引 - 将输入语料库切分成一系列TextUnits,这些单元是后续分析的基本单位,也为输出提供了细粒度的引用。 - 用LLM提取TextUnits中的所有实体、关系以及关键主张。 - 采用Leiden技术对图进行层次聚类。每个圆圈代表一个实体(如人、地点或组织),圆圈大小代表实体的度,颜色代表所属的社区。 - 从底向上生成每个社区及其成员的摘要,帮助全面理解数据集。 ### 查询 在查询阶段,这些结构被用来为LLM的上下文窗口提供材料。主要的查询模式有两种: - **全局搜索**:利用社区摘要,推理关于语料库的整体问题。 - **局部搜索**:扩展到邻居和关联概念,推理特定实体。 ### 提示调整 开箱即用地使用GraphRAG,不一定能拿到最佳结果。强烈建议根据官方文档中的提示调整指南进行针对性优化,这一点非常重要。 --- ## 快速入门 如果想快速上手GridRAG系统,可以试试解决方案翻跟斗包,它能提供一套用户友好的端到端Azure资源体验。 --- ## 创建LLM生成的知识图 支撑GraphRAG的底层流程,是基于此前在代码库和图机器学习方面的研究: - LLM先处理整个私有数据集,创建源数据中所有实体和关系的引用,进而生成一个知识图谱。 - 然后,利用这个图谱进行自下而上的聚类,按语义簇的层次组织数据(不同颜色表示不同的语义簇)。这种划分方式允许对语义概念和主题进行预总结,有助于对数据集的整体理解。 - 在查询时,这两个结构被用来为LLM上下文窗口提供材料。 下图展示了一个知识图谱的可视化示例。每个圆圈代表一个实体(如人、地点或组织),实体大小反映关系数量,颜色表示相似实体的分组。颜色的划分基于图结构的自下而上聚类,使得我们能在不同的抽象层次上回答问题。 图3:使用GPT-4 Turbo从私有数据集构建的LLM生成的知识图谱。 --- ## 结果指标 上述示例表明,GraphRAG在不同主题领域的多个数据集中,都保持了一致的改进。评估方式是用LLM评分器来判断GraphRAG与基线RAG之间的成对胜者。使用的定性指标包括:全面性(在问题隐含上下文框架内的完整性)、人类授权(提供支持源材料或其他上下文信息)以及多样性(提供不同观点或角度)。初步结果显示,GraphRAG在这些指标上**始终优于**基线RAG。 除了相对比较外,还使用了SelfCheckGPT进行绝对真实性测量,确保结果基于源材料的事实、一致且连贯。结果显示,GraphRAG在真实性方面与基线RAG相近。目前团队正在开发一个评估框架,专门测量上述问题类别的性能,包括生成问答测试集的更强大机制,以及准确性和上下文相关性等额外指标。 --- ## 下一步 通过结合LLM生成的知识图谱和图机器学习,GraphRAG让我们能够回答那些基线RAG单打独斗时无法触及的重要问题类别。将这项技术应用于社交媒体、新闻文章、工作效率工具以及化学等多个场景后,结果都令人鼓舞。未来计划与客户密切合作,将这项技术推广到更多新领域,同时继续推进指标和评估体系的建设工作。可以期待的是,随着研究的深入,还会有更多内容分享出来。 --- ## 仓库指南 这个仓库提供了一种利用知识图谱记忆结构来增强LLM输出的方法。需要说明的是,提供的代码仅作演示用途,并非微软官方正式产品。 --- ## 深入了解 - 关于贡献指南,可以参阅CONTRIBUTING.md。 - 想上手开发GraphRAG,见DEVELOPING.md。 - 欢迎在GitHub Discussions中参与讨论并反馈意见。 --- ## 提示调整 再次强调:开箱即用地使用GraphRAG,效果可能达不到预期。强烈建议根据文档中的提示调整指南进行适配。 --- ## 常见问题 更多细节请参阅RAI_TRANSPARENCY.md,其中涵盖了以下问题: - 什么是GraphRAG? - GraphRAG能做什么? - GraphRAG的预期用途是什么? - GraphRAG如何评估?使用哪些指标衡量性能? - GraphRAG的局限性有哪些?用户如何最小化这些局限性? - 什么操作因素和设置能确保GraphRAG有效且负责任地使用?
AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc