热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >清华开源LongCite,如何提高大模型的溯源能力?

清华开源LongCite,如何提高大模型的溯源能力?

来源:互联网 更新时间:2026-05-30 09:28

在长文本生成场景中,如何让大模型准确引用来源,一直是工业界落地时最常被追问的能力点。最近清华团队开源了一套名为 LongCite 的方案,包含评测基准、45k 的监督微调数据集、两个开源模型,以及一套完整的数据生成流程。整体来看,思路干净、效果扎实,值得拆开细看。

清华开源LongCite,如何提高大模型的溯源能力?

项目最值得关注的部分,其实是数据生成的 pipeline——如下图所示,分三步加一步过滤。为什么没有一步到位?团队的解释是:分步走能让数据更干净——先拿到答案,再给答案配上引用,这样引用和回答不会互相污染。

  • QA 数据生成

    :让大模型基于给定的长篇文本,自动构造相关的问题和答案。
  • 块级引用生成

    :给文本分块,给每个块打上引用标记,然后结合问题和答案,生成带有引用标注的 chunk 级 QA 数据。
  • 句子级引用提取

    :从每个 chunk 的引用中,进一步抽取出支撑每个具体陈述的句子,形成更细粒度的引用。
  • 过滤

    :扔掉那些引用数量不足的样本,确保数据质量。

从数据分布上看,中文占比更高——这对国内私有化场景来说,恰好是个好消息。整体效果相比基线有明显提升,尤其在需要精准引用的长文本任务上,表现扎实。

AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc