热门搜索：和平精英　原神　街篮2　

您的位置：首页 > > 教程攻略 > ai资讯 >清华开源LongCite，如何提高大模型的溯源能力？

清华开源LongCite，如何提高大模型的溯源能力？

来源:互联网 更新时间:2026-05-30 09:28

在长文本生成场景中，如何让大模型准确引用来源，一直是工业界落地时最常被追问的能力点。最近清华团队开源了一套名为 LongCite 的方案，包含评测基准、45k 的监督微调数据集、两个开源模型，以及一套完整的数据生成流程。整体来看，思路干净、效果扎实，值得拆开细看。

清华开源LongCite，如何提高大模型的溯源能力？

数据集
：LongCite-45k
模型
：LongCite-glm4-9b、LongCite-llama3.1-8b
代码
：GitHub

项目最值得关注的部分，其实是数据生成的 pipeline——如下图所示，分三步加一步过滤。为什么没有一步到位？团队的解释是：分步走能让数据更干净——先拿到答案，再给答案配上引用，这样引用和回答不会互相污染。

QA 数据生成
：让大模型基于给定的长篇文本，自动构造相关的问题和答案。
块级引用生成
：给文本分块，给每个块打上引用标记，然后结合问题和答案，生成带有引用标注的 chunk 级 QA 数据。
句子级引用提取
：从每个 chunk 的引用中，进一步抽取出支撑每个具体陈述的句子，形成更细粒度的引用。
过滤
：扔掉那些引用数量不足的样本，确保数据质量。

从数据分布上看，中文占比更高——这对国内私有化场景来说，恰好是个好消息。整体效果相比基线有明显提升，尤其在需要精准引用的长文本任务上，表现扎实。

AI自动绘画大师

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

热门资讯

热门手游

相关攻略

1 私域大模型建设记录（五） 05-30

1

私域大模型建设记录（五）

05-30
2 从目前国内LLM模型公司八卦谈起 05-30

2

从目前国内LLM模型公司八卦谈起

05-30
3 智谱大模型引爆港股,股价一度暴涨32%! 05-30

3

智谱大模型引爆港股,股价一度暴涨32%!

05-30
4 《即创AI》是什么软件解答 05-30

4

《即创AI》是什么软件解答

05-30
5 RAG重磅升级：DSF带来特定领域精准提升的全新方案！ 05-30

5

RAG重磅升级：DSF带来特定领域精准提升的全新方案！

05-30
6 行业Know How在AI提示词中的重要性 05-30

6

行业Know How在AI提示词中的重要性

05-30
7 AI+农业：揭秘人工智能如何重塑传统农耕 05-30

7

AI+农业：揭秘人工智能如何重塑传统农耕

05-30
8 AI热点资讯日报 - 2026年05月14日 05-30

8

AI热点资讯日报 - 2026年05月14日

05-30
9 开源RAG框架汇总 05-30

9

开源RAG框架汇总

05-30
10 RAG混合检索：掌握倒数秩融合RRF多维度提升检索结果评分的秘诀 05-30

10

RAG混合检索：掌握倒数秩融合RRF多维度提升检索结果评分的秘诀

05-30

热门专题

手机号码测吉凶
本站所有软件，都由网友上传，如有侵犯你的版权，请发邮件haolingcc@hotmail.com 联系删除。版权所有 Copyright@2012-2013 haoling.cc