来源:互联网 更新时间:2026-05-30 07:36
今天来聊两件事,都和最近圈里的动态有关。
第一件,是Anthropic放出的一个RAG检索方案——
第二件,是关于老刘课堂的一个阶段性总结。最近一直在琢磨,怎么把社区已经沉淀下来的知识,以更高效、更精准的方式再挖掘出来。于是就有了“老刘课堂三部曲”这个想法——把原本线上分享的内容,进一步剪辑、整理,拆成一个个小的知识点,形成
这其实是和技术社区相对独立的一条线,也算是一种新的尝试。供大家参考,也欢迎一起思考。关注技术进展,总会有收获。
传统RAG的做法,是把文档切分成更小的块(chunk),再去做检索。这个方法在很多场景下都没问题,但有时也会遇到一个棘手的情况——单个chunk,缺乏完整的上下文。
举个例子。假设你往知识库里塞了一套美国SEC的财务文件,然后问:“ACME Corp在2023年第二季度的收入增长如何?”
检索系统可能会命中这样一个chunk:“公司收入比上一季度增长了3%。”——看起来没问题,但单独看这个块,它压根没提是哪家公司、哪个时间段。这就导致系统很难准确命中,或者即使命中了,后续的大模型也没法正确理解这个“3%”说的是什么。
这个问题的本质,是
Anthropic这次的做法,思路非常直接:


核心机制说清楚了,但落地会遇到两个现实问题:
给几百万个chunk挨个手动写上下文,显然不现实。Anthropic的做法是直接用Claude,写了一条prompt,让模型基于整篇文档的语境,给每个chunk生成一段简洁但针对性很强的上下文解释。

比如,原始chunk是“公司收入比上一季度增长了3%”,经过Claude处理后,生成的上下文可能会是“这是ACME Corp在2023年第二季度财报中披露的收入增长数据”。然后这段上下文会被拼接到chunk前面,再去构建embedding和BM25索引。
这里的关键,是prompt caching。简单说,如果你有一个很长的prompt(比如整个参考文档),在多轮请求中会被反复用到,那么可以把这些内容缓存起来,避免每次都重新计算。
基本流程是这样的:
这种方法对于那些“带大量例子的prompt、包含大量上下文的背景信息、一致性指令的重复任务、多轮对话”场景,收益尤其明显。官方数据说,延迟最高能降低2倍以上,成本最高能降低90%。
假设每个chunk 800个token、每篇文档8000个token、上下文指令50个token、每个chunk生成的上下文100个token,那么生成一次上下文的一次性成本大约为1.02美元/百万文档token。
不过需要注意,缓存的寿命只有5分钟,每次使用缓存内容时都会刷新。
在生成完上下文后,配合Contextual Embedding和Contextual BM25,根据Anthropic的评估脚本,
整套方案的消融实验数据也很有意思,不同embedding的组合差异还是挺大的。
不过话说回来,这个思路和我们前几天讨论的memo方案,在精神上有异曲同工之妙,值得放在一起对比着看。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc