热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >RAG检索失败率降低49%?Anthropic-Contextual-RAG方案解析-兼看老刘的课堂三部曲

RAG检索失败率降低49%?Anthropic-Contextual-RAG方案解析-兼看老刘的课堂三部曲

来源:互联网 更新时间:2026-05-30 07:36

今天来聊两件事,都和最近圈里的动态有关。

第一件,是Anthropic放出的一个RAG检索方案——

Contextual Retrieval embeddings + contextual BM25

。不少渠道在传,说这个方案能把检索失败率降低49%。到底怎么回事?落地可能性大不大?我们来拆开看看。

第二件,是关于老刘课堂的一个阶段性总结。最近一直在琢磨,怎么把社区已经沉淀下来的知识,以更高效、更精准的方式再挖掘出来。于是就有了“老刘课堂三部曲”这个想法——把原本线上分享的内容,进一步剪辑、整理,拆成一个个小的知识点,形成

知识图谱、大模型、RAG

几个专题集合。这样一来,大家可以根据需求自定义观看,也能更精准地找到自己关心的内容。

这其实是和技术社区相对独立的一条线,也算是一种新的尝试。供大家参考,也欢迎一起思考。关注技术进展,总会有收获。

一、先看Anthropic发布的RAG检索方案

传统RAG的做法,是把文档切分成更小的块(chunk),再去做检索。这个方法在很多场景下都没问题,但有时也会遇到一个棘手的情况——单个chunk,缺乏完整的上下文。

举个例子。假设你往知识库里塞了一套美国SEC的财务文件,然后问:“ACME Corp在2023年第二季度的收入增长如何?”

检索系统可能会命中这样一个chunk:“公司收入比上一季度增长了3%。”——看起来没问题,但单独看这个块,它压根没提是哪家公司、哪个时间段。这就导致系统很难准确命中,或者即使命中了,后续的大模型也没法正确理解这个“3%”说的是什么。

这个问题的本质,是

chunk丢失了上下文

。过去也有不少人在尝试解决,比如给chunk加上文档摘要,或者用HyDE(假设文档嵌入)来做检索增强。但这些方法各有局限,要么太粗糙,要么额外开销太大。

Anthropic这次的做法,思路非常直接:

用Claude为每个chunk,生成专属的上下文描述

。在embedding和BM25索引建立之前,先把这段生成的上下文(通常是50-100个token)附加到chunk前面,再进行后续处理。

核心机制说清楚了,但落地会遇到两个现实问题:

一是上下文怎么生成;二是chunk数量巨大,怎么生成得快、生成得便宜

1、如何生成上下文

给几百万个chunk挨个手动写上下文,显然不现实。Anthropic的做法是直接用Claude,写了一条prompt,让模型基于整篇文档的语境,给每个chunk生成一段简洁但针对性很强的上下文解释。

比如,原始chunk是“公司收入比上一季度增长了3%”,经过Claude处理后,生成的上下文可能会是“这是ACME Corp在2023年第二季度财报中披露的收入增长数据”。然后这段上下文会被拼接到chunk前面,再去构建embedding和BM25索引。

2、如何快速生成上下文

这里的关键,是prompt caching。简单说,如果你有一个很长的prompt(比如整个参考文档),在多轮请求中会被反复用到,那么可以把这些内容缓存起来,避免每次都重新计算。

基本流程是这样的:

  • 系统检查当前请求的prompt前缀,是否已经被缓存。
  • 如果是,直接复用缓存结果,大幅减少处理时间和成本。
  • 如果不是,则完整处理prompt,并缓存前缀以备后续使用。

这种方法对于那些“带大量例子的prompt、包含大量上下文的背景信息、一致性指令的重复任务、多轮对话”场景,收益尤其明显。官方数据说,延迟最高能降低2倍以上,成本最高能降低90%。

假设每个chunk 800个token、每篇文档8000个token、上下文指令50个token、每个chunk生成的上下文100个token,那么生成一次上下文的一次性成本大约为1.02美元/百万文档token。

不过需要注意,缓存的寿命只有5分钟,每次使用缓存内容时都会刷新。

在生成完上下文后,配合Contextual Embedding和Contextual BM25,根据Anthropic的评估脚本,

检索失败率确实降低了49%

。如果再结合rerank,这个数字还能进一步提升到67%。

整套方案的消融实验数据也很有意思,不同embedding的组合差异还是挺大的。

总结一下

:这个方法的核心理念,就是“用大模型为chunk生成上下文”。想法很聪明,但落地时有一个明显的矛盾——

对于超长文档,把所有内容都喂给大模型生成上下文,本身就是一件不太现实的事

。prompt caching虽然解决了单次生成的时间和费用问题,但生成的

次数并没有减少

。所以,真正要大规模落地,还是有不少挑战。

不过话说回来,这个思路和我们前几天讨论的memo方案,在精神上有异曲同工之妙,值得放在一起对比着看。

AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc