您的位置：首页 > > 教程攻略 > ai资讯 >如何提升大模型RAG系统的效果？RAG框架 and 落地选型（一）

如何提升大模型RAG系统的效果？RAG框架 and 落地选型（一）

来源:互联网 更新时间:2026-05-30 09:28

先说几个基本判断。RAG这两年热度居高不下，各种论文、公众号文章铺天盖地，看得人眼花缭乱。但说到底，RAG本质上是一套系统工程，从索引到检索再到生成，牵扯的模块实在太多。每个模块都有各自的优化空间，所以各种“花活”层出不穷也就不奇怪了。反过来看，只要把整体框架搭稳了，后面出现的各种新方法，无非是在这个框架里“雕花”而已，思路就不会乱。

为什么各家都这么重视RAG？因为它是大模型落地非常好的场景之一。问答系统是几乎所有公司都绕不开的需求——无论是内部业务咨询、技术问答，还是面向客户的智能客服，大家其实都在做类似的尝试，只不过侧重点和实现路径不同。

这就引出一个核心问题：知识到底该如何注入大模型？增量预训练、微调、RAG，这三者怎么选？从落地效率来看，RAG显然更高：它能有效减少幻觉、提供可验证的知识来源，还能支持动态更新和良好的可解释性。不过对比的时候，大家常拿指令微调或监督微调跟RAG比，而增量预训练反而提得少。值得强调的是，增量预训练这一步对领域知识的增益往往被低估——尤其是那些与通用语料差异较大的专业领域。Yi的技术报告里提到，增量预训练对上下文窗口扩展也有显著帮助。所以建议的顺序是：先考虑增量预训练（低频率）→ 再考虑SFT → 最后才是RAG，形成迭代式的优化路径。

RAG框架：从Naive到Modular

目前主流的RAG框架可以分为三类：Naive RAG、Advanced RAG和Modular RAG。同济那篇综述里的框架图建议反复多看几遍，用它来强化对整体架构的记忆非常有效。实际上，大部分企业目前都处于Advanced RAG阶段，核心工作集中在检索器的细节打磨，以及大模型对召回内容的总结、推理和生成效果的调优上。

几个值得关注的Advanced RAG方法

所谓“高级”，自然是针对具体问题出手。常见的问题有三类：

内容缺失
：检索到的文档里根本找不到正确答案——这是召回的准确性问题。
排名干扰
：Top K的结果里混入了大量无关信息，正确文档反而被埋没——这是排名的准确性问题。
推理乏力
：模型拿到了正确的文档，但不知道怎么用——该看哪段、忽略哪段，最终能不能精准回答，这取决于推理和总结的能力。

为什么只挑这几个方法介绍？因为《ARAGOG: Advanced RAG Output Grading》这篇论文里明确指出，其实很多（夸张点说“成千上万”）的高级技巧，效果并不尽如人意。方法多并不等于效果好，关键还是得辩证地去实践。

针对第一个问题，介绍几个基于Prompt Engineering的查询改写或扩展方法：

HyDE
：先让大模型根据用户的Query生成一个“假设文档”，再用这个假设文档去知识库里检索。这背后的逻辑是：假设文档在语义上更接近知识库的表述方式，从而提升召回命中率。
Step-back Prompting
：从具体问题往抽象问题“退一步”。比如用户问“张三的合同里有没有竞业限制条款”，抽象成“张三的合同包含哪些关键条款”，再拿去检索，结果往往更全面。
Meta CoVe
：面向复杂Query时，直接把问题拆解成几个更细的子问题，分别检索后汇总答案。相比用一个query一把梭，这种方式获取的知识颗粒度更细、覆盖更全面。

背后的道理其实很简单：这几个思路都是在把用户那些“表述奇怪、不够规范”的问题，翻译成大模型或检索系统更擅长的“内部语言”，降低了理解成本，效果自然就上来了。

至于第二个问题——对召回内容进行精细化排序：

LLM ReRank
：直接调用大模型API对召回文档进行排序，目前看到用的人相对少一些。
BGE ReRanker
：FlagEmbedding开源的交叉编码器模型，比普通的向量模型排序能力强很多。官方建议用它（或微调后）对向量模型返回的Top K文档做重新排序，以提升最终结果的相关性。工业界用得比较多，代码也很方便，值得推荐。

第三个问题——模型拿到知识后的推理与总结能力，其实讨论得相对少。表面看这是个“润色”活，但实际涉及大量推理。举个例子：用户问“安装充电桩，布线11米怎么收费？”而文档里写的是“5米到10米收X元，10米以上打九折”。这就得让模型理解逻辑链，而不是单纯从文档里复制粘贴。目前来看，这类问题只有API级别的大模型（比如GPT-4、Kimi Chat）才能处理得比较好，其他方法还在摸索中。

这些方法当然不只这几个，但近期比较感兴趣、也在几篇论文里验证过效果不错的，就先介绍到这里。实际落地时大概率需要逐个尝试。不过只要把前面那套框架理解透了，就知道每个方法的优化方向该往哪里走。

工业落地的一些实际选型

个人比较倾向于把技术落地作为最终目标，所以平时也会关注各家公司的具体技术方案。以下列举几个常见选型供参考。

技术问答机器人场景

意图识别
：暂不明确。
检索召回
：使用BGE Embedding进行检索。为了提升领域效果，采用RetroMAE方式——用全参数BERT作为编码器，加上单层Transformer作为解码器，对mask词进行预测，从而实现领域增强。
排序生成
：检索结果优化采用RAG-Fusion——由大模型生成多个不同角度的Query，按RRF（基于排名倒数的综合打分）方式融合多路结果，同时配合BGE-ReRank做二次排序。

RAG平台场景

意图识别
：使用意图识别进行场景分流，技术路线是bge_large_en向量模型配合大模型。
检索召回
：使用Cohere Embedding（支持100+种语言）进行检索；工程上采用OpenSearch实现多路混合召回（向量检索+关键词检索），同时包含Sparse Vector Retrieval（term expansion）。
排序生成
：使用BGE进行ReRank。
知识库
：按照“大模型自有知识 → 网络搜索 → 内部知识库”的优先级做ReRank。

百川场景

意图识别
：具体方案未知。但从百川2的论文来看，对齐过程包含了非常细粒度的层级意图分类，可以推测其意图识别做得非常精细。
检索召回
：Query扩展采用Meta CoVe和Think Step-Further；检索策略选择稀疏检索+向量检索（自研baichuan-text-embedding）。
排序生成
：具体的rerank模型未知；但采用了self-critique机制——让大模型基于prompt，从相关性和可用性等角度对检索回来的内容进行自我反思，挑选出与prompt最匹配、最优质的候选内容。

注：“/”表示该环节优化细节不明确。

总结

如开篇所说，RAG是一套系统工程，并非什么全新的技术。只不过在大模型时代，这套系统的价值被前所未有地凸显出来。因此各种论文和最佳实践层出不穷也是情理之中。我们真正要做的，是在实际项目中快速落地，针对自己的场景反复调优，积累足够多的心得之后，自然就能形成体系化的方法论。本文只是介绍了RAG的整体框架和一些经过验证的优化方法，远未涉及全部——比如多模态、语料到知识库的清洗、RAG系统的正确评估、自动生成引文等，还有很多值得深入的方向。希望后续能结合更多落地场景和论文，继续深入展开。

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

如何提升大模型RAG系统的效果？RAG框架 and 落地选型（一）

RAG框架：从Naive到Modular

几个值得关注的Advanced RAG方法

内容缺失

排名干扰

推理乏力

HyDE

Step-back Prompting

Meta CoVe

LLM ReRank

BGE ReRanker

工业落地的一些实际选型

技术问答机器人场景

意图识别

检索召回

排序生成

RAG平台场景

意图识别

检索召回

排序生成

知识库

百川场景

意图识别

检索召回

排序生成

总结

热门资讯

热门手游

相关攻略

热门专题

如何提升大模型RAG系统的效果？RAG框架 and 落地选型 （一）

RAG框架：从Naive到Modular

几个值得关注的Advanced RAG方法

内容缺失

排名干扰

推理乏力

HyDE

Step-back Prompting

Meta CoVe

LLM ReRank

BGE ReRanker

工业落地的一些实际选型

技术问答机器人场景

意图识别

检索召回

排序生成

RAG平台场景

意图识别

检索召回

排序生成

知识库

百川场景

意图识别

检索召回

排序生成

总结

热门资讯

热门手游

相关攻略

热门专题

如何提升大模型RAG系统的效果？RAG框架 and 落地选型（一）