您的位置：首页 > > 教程攻略 > ai资讯 >大模型RAG最佳实践指南

大模型RAG最佳实践指南

来源:互联网 更新时间:2026-05-30 07:54

今天分享一篇来自复旦大学的硬核研究。大模型时代的RAG技术已经锤炼了一年多，各种高级技巧层出不穷。但问题来了——到底哪些技巧真正有用？哪些搭配在一起效果最好？这篇论文给出了系统性的答案。

_{Searching for Best Practices in Retrieval-Augmented Generation}

_{检索增强生成（RAG）已被证明能有效整合最新信息、减轻幻觉、提升响应质量，尤其在专业领域。尽管已有大量RAG方法通过查询检索来增强大语言模型，但它们仍面临实现复杂、响应时间长的问题。通常，RAG工作流涉及多个处理步骤，每个步骤都有多种执行方式。}

本研究系统梳理现有RAG方法及其潜在组合，以确定最佳实践。

通过大量实验，提出了若干兼顾性能与效率的部署策略。此外，多模态检索技术能显著增强视觉问答能力，而“检索即生成”策略可加速多模态内容生成。资源：https://github.com/FudanDNN-NLP/RAG

研究覆盖了RAG的完整工作流：从用户查询分类、文档召回重排，到摘要生成，每个环节都尝试了不同方法。需要对比组合的核心策略一览如下：

一个真实的问答系统，并非所有用户查询都需要外部知识。首先要解决的是查询归类问题——比如翻译、改写、推理这类信息充足的场景，根本不需要召回外部知识。下图展示了问题类别样例：黄色部分不需要RAG，橙色部分需要RAG。

作者训练了一个二分类器来判断是否需要召回，结果相当乐观。

确定需要召回后，下一步是验证文档分块策略。评测涉及三个维度：块大小、分块策略、向量模型选择。

块大小的实验使用OpenAI Ada 002作为向量模型、GPT-3.5 Turbo作为生成模型。结果显示，块大小从128增加到512时收益递增；但更大的块（1024、2048）反而效果更差。

分块策略方面，small2big指用128的块做匹配，扩展到512的块用于生成；sliding window则设置20个token的重叠。结果发现sliding window相对更优。

向量模型选择的实验参考意义不大，因为这里是英文场景，结果如图。

向量数据库方面，作者推荐Milvus，支持多种索引、十亿级向量和混合搜索。

文档建立索引后，下一个大模块是怎么召回？

查询侧涉及三种策略：查询改写、查询分解为子问题、伪文档生成（HyDE）。测试表明，如果不考虑延迟，HyDE+混合搜索效果最佳；如果考虑延迟，混合搜索性价比最高。

选择HyDE后，还要考虑构造多少个伪文档。实测发现，伪文档数量越多增益越大，但延迟也会增加，需要在效果与效率之间权衡。

稠密向量的语义搜索与稀疏向量的文本级检索，两者相关性融合的权重alpha如何设定？实验发现，alpha=0.3左右（即稠密向量占比更大）时效果最优。

召回的最后一步是重排序对比。DLM（交互式二分类模型）、TILDE（基于语言模型概率验证）等方案中，交互式模型优势明显。

召回文档在prompt中的排序方式有三种：按相关性降序（forward）、升序（reverse）、头尾颠倒（slides）。结果出人意料——reverse竟然最好，是不是和直觉不太一样？

召回文档的摘要生成，大类分为抽取式和生成式，其中Recomp效果最佳，不过实际应用中可能用得较少。

最后是生成模型的微调。不同构造数据方式的结论是：在训练期间使用一些相关且随机选择的文档进行增强，效果最为优秀。

最后一张大表，清晰展示了最佳实践指南。前置分类器对降低延迟帮助明显；混合搜索+重排序是必备手段；其他如顺序调整、摘要生成等属于锦上添花，能带来正向提升，但并非核心。

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载