热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >如何提升大模型RAG系统的效果?RAG框架 and 落地选型 (一)

如何提升大模型RAG系统的效果?RAG框架 and 落地选型 (一)

来源:互联网 更新时间:2026-05-30 09:28

先说几个基本判断。RAG这两年热度居高不下,各种论文、公众号文章铺天盖地,看得人眼花缭乱。但说到底,RAG本质上是一套系统工程,从索引到检索再到生成,牵扯的模块实在太多。每个模块都有各自的优化空间,所以各种“花活”层出不穷也就不奇怪了。反过来看,只要把整体框架搭稳了,后面出现的各种新方法,无非是在这个框架里“雕花”而已,思路就不会乱。

为什么各家都这么重视RAG?因为它是大模型落地非常好的场景之一。问答系统是几乎所有公司都绕不开的需求——无论是内部业务咨询、技术问答,还是面向客户的智能客服,大家其实都在做类似的尝试,只不过侧重点和实现路径不同。

这就引出一个核心问题:知识到底该如何注入大模型?增量预训练、微调、RAG,这三者怎么选?从落地效率来看,RAG显然更高:它能有效减少幻觉、提供可验证的知识来源,还能支持动态更新和良好的可解释性。不过对比的时候,大家常拿指令微调或监督微调跟RAG比,而增量预训练反而提得少。值得强调的是,增量预训练这一步对领域知识的增益往往被低估——尤其是那些与通用语料差异较大的专业领域。Yi的技术报告里提到,增量预训练对上下文窗口扩展也有显著帮助。所以建议的顺序是:先考虑增量预训练(低频率)→ 再考虑SFT → 最后才是RAG,形成迭代式的优化路径。

RAG框架:从Naive到Modular

目前主流的RAG框架可以分为三类:Naive RAG、Advanced RAG和Modular RAG。同济那篇综述里的框架图建议反复多看几遍,用它来强化对整体架构的记忆非常有效。实际上,大部分企业目前都处于Advanced RAG阶段,核心工作集中在检索器的细节打磨,以及大模型对召回内容的总结、推理和生成效果的调优上。

几个值得关注的Advanced RAG方法

所谓“高级”,自然是针对具体问题出手。常见的问题有三类:

  • 内容缺失

    :检索到的文档里根本找不到正确答案——这是召回的准确性问题。

  • 排名干扰

    :Top K的结果里混入了大量无关信息,正确文档反而被埋没——这是排名的准确性问题。

  • 推理乏力

    :模型拿到了正确的文档,但不知道怎么用——该看哪段、忽略哪段,最终能不能精准回答,这取决于推理和总结的能力。

为什么只挑这几个方法介绍?因为《ARAGOG: Advanced RAG Output Grading》这篇论文里明确指出,其实很多(夸张点说“成千上万”)的高级技巧,效果并不尽如人意。方法多并不等于效果好,关键还是得辩证地去实践。

针对第一个问题,介绍几个基于Prompt Engineering的查询改写或扩展方法:

  • HyDE

    :先让大模型根据用户的Query生成一个“假设文档”,再用这个假设文档去知识库里检索。这背后的逻辑是:假设文档在语义上更接近知识库的表述方式,从而提升召回命中率。

  • Step-back Prompting

    :从具体问题往抽象问题“退一步”。比如用户问“张三的合同里有没有竞业限制条款”,抽象成“张三的合同包含哪些关键条款”,再拿去检索,结果往往更全面。

  • Meta CoVe

    :面向复杂Query时,直接把问题拆解成几个更细的子问题,分别检索后汇总答案。相比用一个query一把梭,这种方式获取的知识颗粒度更细、覆盖更全面。

背后的道理其实很简单:这几个思路都是在把用户那些“表述奇怪、不够规范”的问题,翻译成大模型或检索系统更擅长的“内部语言”,降低了理解成本,效果自然就上来了。

至于第二个问题——对召回内容进行精细化排序:

  • LLM ReRank

    :直接调用大模型API对召回文档进行排序,目前看到用的人相对少一些。

  • BGE ReRanker

    :FlagEmbedding开源的交叉编码器模型,比普通的向量模型排序能力强很多。官方建议用它(或微调后)对向量模型返回的Top K文档做重新排序,以提升最终结果的相关性。工业界用得比较多,代码也很方便,值得推荐。

第三个问题——模型拿到知识后的推理与总结能力,其实讨论得相对少。表面看这是个“润色”活,但实际涉及大量推理。举个例子:用户问“安装充电桩,布线11米怎么收费?”而文档里写的是“5米到10米收X元,10米以上打九折”。这就得让模型理解逻辑链,而不是单纯从文档里复制粘贴。目前来看,这类问题只有API级别的大模型(比如GPT-4、Kimi Chat)才能处理得比较好,其他方法还在摸索中。

这些方法当然不只这几个,但近期比较感兴趣、也在几篇论文里验证过效果不错的,就先介绍到这里。实际落地时大概率需要逐个尝试。不过只要把前面那套框架理解透了,就知道每个方法的优化方向该往哪里走。

工业落地的一些实际选型

个人比较倾向于把技术落地作为最终目标,所以平时也会关注各家公司的具体技术方案。以下列举几个常见选型供参考。

技术问答机器人场景

  • 意图识别

    :暂不明确。

  • 检索召回

    :使用BGE Embedding进行检索。为了提升领域效果,采用RetroMAE方式——用全参数BERT作为编码器,加上单层Transformer作为解码器,对mask词进行预测,从而实现领域增强。

  • 排序生成

    :检索结果优化采用RAG-Fusion——由大模型生成多个不同角度的Query,按RRF(基于排名倒数的综合打分)方式融合多路结果,同时配合BGE-ReRank做二次排序。

RAG平台场景

  • 意图识别

    :使用意图识别进行场景分流,技术路线是bge_large_en向量模型配合大模型。

  • 检索召回

    :使用Cohere Embedding(支持100+种语言)进行检索;工程上采用OpenSearch实现多路混合召回(向量检索+关键词检索),同时包含Sparse Vector Retrieval(term expansion)。

  • 排序生成

    :使用BGE进行ReRank。

  • 知识库

    :按照“大模型自有知识 → 网络搜索 → 内部知识库”的优先级做ReRank。

百川场景

  • 意图识别

    :具体方案未知。但从百川2的论文来看,对齐过程包含了非常细粒度的层级意图分类,可以推测其意图识别做得非常精细。

  • 检索召回

    :Query扩展采用Meta CoVe和Think Step-Further;检索策略选择稀疏检索+向量检索(自研baichuan-text-embedding)。

  • 排序生成

    :具体的rerank模型未知;但采用了self-critique机制——让大模型基于prompt,从相关性和可用性等角度对检索回来的内容进行自我反思,挑选出与prompt最匹配、最优质的候选内容。

注:“/”表示该环节优化细节不明确。

总结

如开篇所说,RAG是一套系统工程,并非什么全新的技术。只不过在大模型时代,这套系统的价值被前所未有地凸显出来。因此各种论文和最佳实践层出不穷也是情理之中。我们真正要做的,是在实际项目中快速落地,针对自己的场景反复调优,积累足够多的心得之后,自然就能形成体系化的方法论。本文只是介绍了RAG的整体框架和一些经过验证的优化方法,远未涉及全部——比如多模态、语料到知识库的清洗、RAG系统的正确评估、自动生成引文等,还有很多值得深入的方向。希望后续能结合更多落地场景和论文,继续深入展开。

AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc