您的位置：首页 > > 教程攻略 > ai资讯 >通过监督微调，为LLM注入新知识

通过监督微调，为LLM注入新知识

来源:互联网 更新时间:2026-05-30 08:40

通过监督微调，为LLM注入新知识

摘要

大型语言模型（LLMs）生成类人文本的能力已经很强了，这一点毋庸置疑。但如何让这些模型真正吸收新知识——特别是那些在它们的知识截止日期之后才出现的事实和事件——依然是个不小的挑战。这篇研究探讨的核心问题是：如何让一个大语言模型，学到它“出生”之后才发生的新知识？我们以近期体育赛事为例，比较了两种不同的数据生成策略：一种是基于词元数量的扩展，另一种是基于事实单元的扩展。实验结果相当有说服力。在GPT-4上的测试表明，基于词元的扩展虽然能提升问答的准确率，但很可能无法全面覆盖新知识，会有不少“漏网之鱼”。反观基于事实的扩展，它提供了一种更系统、更彻底的方案，确保每个事实都能得到“雨露均沾”式的关注。我们提出了一套全新的数据集生成流程，通过监督微调（SFT）实现了更有效的知识吸收。实验结果显示，在那些需要模型回答领域外知识的问答题上，性能提升非常明显。这项研究不仅有助于我们理解LLMs的领域适应性，更重要的是，它证明了SFT在帮助大模型掌握特定领域知识、回答事实性问题方面，潜力巨大。

1 引言

大型语言模型很强。这一点毋庸置疑。随着生成式AI的爆发式增长，越来越多的应用场景都开始拿它来当核心。那么，当一个开发者想把一个通用模型用在某个特定任务上时，他马上就会面临一个核心选择题：到底是玩转少样本学习、搞搞提示工程，还是上个检索增强生成（RAG），又或者是直接上手监督微调（SFT）？再或者，把这几样混着用？这个问题，可以说是所有LLM应用开发的起点。不过，我们得先认清一个现实：即便是再强大的预训练模型，它的能力也是受限于它的“知识边界”的。这些模型赖以生存的训练语料，本质上就是一个巨大的、但有时间限制的知识快照。这个快照既有时间的局限性，又有知识覆盖面的盲区。对于那些需要最新信息，或者是模型训练截止日后才冒出来的新事件、小众领域的专业知识，这个局限性就成了一个实实在在的障碍。更何况，人类的知识本身就在不断演变，新事件层出不穷，各领域产生的专有内容也未必都能被公开获取到。那么，开发者怎么应对？当然，RAG通过引入外部知识库来增强模型响应，提供了一种很聪明的解法。但这个方法绕开了一个核心问题——它并没有真正把新知识“写进”模型的大脑里。所以，我们迫切需要探索一些能让模型通过直接的训练干预，把新信息真真切切地内化和保留下来的方法。这恰恰是我们这项研究要直面的核心：给定一批新文档，怎么构建一个训练数据集，才能让模型通过最简单的SFT技术，就把这些知识真正学到手？解决这个问题，不仅仅是理论上的探索，对那些对准确性、时效性和领域特异性要求极高的现实场景来说，更是有着巨大的实用价值。我们在这项研究中，主要取得了以下几个关键成果：首先，我们对业界常见的“基于词元的问答数据集生成”方法做了一次全面的评估。结果发现，这种方法很可能无法保证文档中所有新知识都被全面或均匀地覆盖。这个发现很关键，因为它暴露了当前数据准备策略的潜在短板，也说明我们确实需要一个更有针对性的知识注入方法。针对这个不足，我们设计了一套“基于事实的生成流程”。这个方法的核心思路是：优先确保源文档里所有的重要事实都能“雨露均沾”，让训练数据里每一条信息都被充分表达。这样做，能显著提升模型从特定领域语料中吸收多样化和细微知识的能力。我们还做了实证验证，证明即便只是用简单的SFT，在处理那些跨领域、模型训练截止期之后出现的新知识时，模型性能也能得到显著提升。这个结果不仅验证了我们“基于事实”的方法有多有效，也实打实地证明了SFT作为一个领域适应工具的实用价值。对那些需要紧跟最新信息的动态领域来说，这个发现的影响是深远的。接着，我们把SFT模型和采用RAG的模型做了个基准比较。这个对比分析揭示了直接训练和基于检索的增强之间各有何利弊。对于正在选择知识吸收方法的从业者来说，这份指南很有参考价值。最后，我们深入探索了模型对几个关键超参数设置的敏感度。不用说，超参数调优通常是训练过程中一个微妙但又影响重大的环节。这个探索让我们看到了研究结果的稳健性，也为未来优化知识吸收任务的研究打了个底。以上这些贡献，涵盖了从方法论到实际应用的多个维度。我们希望通过这篇文章，能让读者对我们这项研究的价值和局限性有一个全面的认识。

2 相关工作

在语言模型的后训练自适应领域，特别是如何让它掌握更多的“事实”这一点上，业界已经做了不少探索。一个重要方向就是知识注入，目标同样是往模型里编码新知识。过去比较流行的知识注入方法，大多是靠外部知识库进行检索或增强；这些知识库不一定非得是现代RAG系统里常用的向量数据库，也可以是像知识图谱这样的结构化形式。另一种常见的方法是使用模型适配器。比如有研究者在训练时只让适配器参数动弹，其他参数全部冻结，以此来减轻“灾难性遗忘”问题。所谓灾难性遗忘，就是模型在学习新任务时，很容易就把之前学到的结构给覆盖掉了。为了避免这个毛病，业界要么搞复杂的外部增强技术，要么用部分冻结的适配器方法。但这并不意味着完全绕开直接训练这条路。有研究者尝试用知识填充目标进行持续预训练，来增强模型的事实保留能力。还有研究者用直接偏好优化的约束优化，来鼓励模型在后训练过程中保持事实准确性。我们特别关注了Ovadia等人的一项研究，他们通过反复改写维基百科文章片段来进行无监督训练，以此来教授模型新知识。他们通过精心设计的重复训练来提升微调性能，这个思路和我们的工作有共通之处。不过，我们用的是监督学习，他们选的是无监督学习，这是技术路线上的一个关键区别。此外，Ovadia等人并没有去考虑他们想要学习的底层语料库到底有多少“事实密度”，这一点，实际上更接近我们后面要提到的“基于词元的扩展”方法。

3. 数据集生成

为了做实验，我们选了六篇维基百科文章。其中五篇是近期（模型截止日期之后）的体育锦标赛报道，包括2023年板球世界杯、2023年美国橄榄球超级碗、2023年国际足联女子世界杯、2023年美国职业高尔夫球协会锦标赛和2023年美国全国大学体育协会男子篮球一级联赛锦标赛。另外还有一篇是关于截止日期之前的赛事，也就是2018年国际足联世界杯。之所以选体育赛事，是因为这类主题事实和统计数据特别丰富，容易理解，而且信息在时间线上是“非黑即白”的，边界很清晰。对于每篇文档，我们都用一个文本提取API获取了每个部分的纯文本内容，并以JSON格式返回。之后，我们对这些部分做了过滤和清理，把那些没有实质文本内容的空白部分或纯表格部分都去掉了。对于每篇清理后的文档，我们生成了两种类型的数据集：基于词元的扩展数据集，和基于事实的扩展数据集。我们的目标是通过让不同的问题覆盖相同的内容，来扩展问答数据集，而不是简单地在相同数据上进行更多轮次的训练。因为增加样例会帮助模型以更多样化的方式看到目标知识，这种多样化的重复能提高学习效率，同时尽可能减轻过拟合——过拟合本身也会导致性能大幅下降。我们可不是想让模型死记硬背源文档的措辞，而是希望它真正记住文档中包含的知识。

3.1 基于词元的扩展

生成基于词元扩展的数据集，步骤是这样的：首先初始化一个空的问答库，然后根据文章的概述部分，手动编写一两对问答作为种子。接着，对文档的每个部分，用tiktoken库计算它的词元数量。用基础GPT-4反复生成问答对，直到这个部分独特的问答对生成的总词元数，超过该部分源词元数的10倍。设置温度为1，top_p为0.95（本节所有数据集生成任务都用这个设置）。我们能够从10倍生成的数据集中选取子集，来创建每个部分的1倍和5倍数据集。所有问题，从精确匹配的角度来看，都是唯一的。1倍、5倍和10倍的微调数据集，是通过合并各自扩展因子的各部分数据集形成的。每个文档的评估集也按相同程序生成，但只用到1倍词元规模，同样确保所有问题唯一，且不包含在训练集中。

3.2 基于事实的扩展

对于基于事实的扩展，我们首先需要把文档中包含的所有“原子事实”列个清单。这部分还是让GPT-4来帮忙——我们查询之前清理过的文档部分，让它把事实提炼出来。然后，对于每个文档，我们遍历这些原子事实，再用GPT-4为每个事实生成10个独特的问答对。只有当问答对在问题库中还不存在时，才会被接受，以避免重复，否则就重新生成一对。从这个10倍集合中，我们又创建了1倍和5倍的扩展子集。在基于事实的数据集生成提示中，我们给了GPT-4一个“跳过”选项，如果某个事实过于宽泛、不清晰或跟文档主题不相关，它可以选择不生成问答对。我们手动检查了模型选择遵循这个选项的少数情况。如果这些原子事实确实不相关，就直接过滤掉；如果保留，就移除“跳过”提示选项，强制重新生成问答对。举个例子，GPT-4选择跳过的事实有：“俄罗斯是一个在与纳粹主义的斗争中损失了数百万生命的国家”——这是在2018年俄罗斯世界杯文章中被提及的一句话。模型（正确地）认为这个事实跟体育赛事太不相关了，所以没包含进去。另一个例子是，对于美式足球超级碗LVII的文章，GPT-4跳过了“2022年2月，超过200名自由派宗教领袖向NFL专员罗杰·古德尔请愿”这一事实，尽管它看起来和主题关系不大，但确实涉及一些要求更改超级碗举办地的呼声。我们仍然为这个事实生成了问答对。基于事实的评估集，是在被接受的原子事实集上，使用不带跳过选项的提示生成的，同样进行精确匹配去重，并保持在1倍规模。

4 训练方法论

对于所有扩展因子的基于词元和事实的数据集，我们采用了一样的训练设置。微调过程选的是GPT-4 – v0613模型，它的知识截止日期是2021年9月。我们的SFT过程是参数高效的，用了LoRA技术（Hu et al., 2021），设置秩为16，批量大小为1，迭代次数为3。上下文长度足够大，能容纳我们所有的训练示例。梯度更新只针对辅助令牌进行反向传播，而不针对我们用来做条件设置的用户提示令牌。需要说明的是，我们没有全面遍历所有超参数配置，所以这里选的配置并非最优。我们特别发现，在学习率和迭代次数这两个参数上，还有不少改进空间，因为我们在实验中观察到了一些欠拟合的迹象。

5 实验结果

[请注意：用户原文在第5章“实验结果”之后，紧接着是第6章“局限性与未来工作”，中间并没有具体的实验结果描述。因此，此处仅保留章节标题，并在其后的“6 局限性与未来工作”段落中自然引申出实验相关的结论和分析。]

6 局限性与未来工作

这项研究的局限性很明显，主要就是我们用的数据集类型太单一，全都是关于体育赛事的维基百科文章。未来的研究完全可以从不同领域选取更多样化的文本语料库，来验证我们结论的稳健性。这不仅能检验我们方法的普适性，也能提升模型在更广泛知识领域的适应性。在评估知识保留的有效性时，我们主要盯住了体育相关问答的准确性。但在现实场景里，对话往往横跨多个领域，所以未来研究必须考虑更广泛主题上的表现。尤其是，获取新知识会不会对模型在之前学过的概念上的熟练度产生负面影响？这是个很现实的权衡问题。我们对超参数调整和欠拟合可能性的初步探索，结果很令人鼓舞。我们尝试把训练轮次从3增加到6，再次在基于事实的数据集上训练，结果发现性能提升非常显著。在一些情况下，比如PGA在10倍数据集或NCAA在1倍数据集时，评估集得分能明显提高10%甚至15%的绝对数值。那么，我们看到的扩展增益，是不是仅仅因为更大的数据集意味着更长的训练时间，从而和延长训练轮次的效果一样呢？为了弄清楚，我们拿5倍数据集训练6轮的结果，与10倍数据集训练3轮的结果做了个对比——这两个方案在训练成本上大致相当，但在数据扩展上不同。结果发现，在所有六个数据集中，10倍数据集3轮次的配置都优于5倍数据集6轮次的配置，尽管在某些数据集中优势只有3-5%。这说明，我们的部分增益确实能归因于更长的训练时间，但持续的超常表现也让我们相信，通过不同问题来进行数据扩展，本身也有其独特的好处。不过，数据集扩展、训练时长和学习效率三者之间的关系，仍然值得更深入的探讨。未来的研究应该把目标放在厘清扩展和延长时间各自的具体贡献上，同时也要考虑增加轮次可能带来的过拟合风险。此外，虽然我们生成训练和评估数据集的方法是一致的，但可能并没有完全覆盖现实应用中语言使用的多样性。我们的训练和评估数据是根据同一个程序生成的，来自同一个分布。未来的研究如果能开发出更能反映人类查询多面性特征的数据集，涵盖更多样的语言风格和结构，肯定会更有价值。最后，由于事实密度和词元计数的可变性，用基于词元的方法和基于事实的方法训练出来的模型，直接做比较其实挺复杂的。基于词元的扩展没有固定的事实覆盖率，因为GPT-4生成的问答对分布本身就有偏差；而基于事实的扩展呢，每个文档里事实数量不同，又导致词元计数也不固定。我们观察到，基于事实的扩展数据集的词元计数往往大于基于词元的等价物，比如1倍事实训练集的词元数大约是1倍词元训练集的两倍。尽管如此，我们还是坚持支持基于事实的方法，原因前面已经讨论过——它能保证事实覆盖的全面性。表1列出了每个基于事实的训练数据集的词元乘数。为了更清晰地比较这两种方法的相对优势，未来的工作可以尝试在词元数量或事实数量这两个维度上统一标准。