MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致

来源:互联网 更新时间:2026-06-12 15:01

近日，稀宇科技（MiniMax）发布了一份技术报告，详细剖析了其 M2系列模型在处理“马嘉祺”等特定人名时出现输出偏差的深层原因。这个看似个例的问题，实际上触及了当前大模型训练流程中一个普遍却容易被忽视的结构性弱点。

词元偏移：被“挤压”的向量空间

问题的根源，要从大模型理解文本的基本单位——分词器说起。以“马嘉祺”为例，在模型的“眼中”，这个名字通常被切分为“马”和“嘉祺”两个独立的词元。尽管在预训练阶段，模型已经从海量数据中学习过这些词汇的普遍含义和用法，但麻烦出在接下来的“后训练”阶段。

这种影响并非孤例。除了特定人名，一些外语词汇、LaTeX公式标记、维基百科源码符号，甚至部分SEO垃圾关键词，都出现了类似的输出不稳定现象。这充分说明，数据稀疏性带来的后果是全局性的：一旦后训练数据无法均衡、充分地覆盖所有语种和特定领域的词汇，模型的生成逻辑就会发生系统性偏移。

系统性修复：为20万个词元建立“低保”

面对这一底层挑战，研发团队设计了一套针对性的修复策略。其核心思路是，通过构造覆盖全词表的合成数据，并让模型执行强制性的“复读”任务，从而为词表中的每一个词元都建立起一个最低限度的生成概率保障——你可以把它理解为词元层面的“数据低保”。

效果是显著的。修复后的数据显示，模型在整个词表范围内的输出稳定性得到了大幅提升。一个具体的例子是，在日语回答中混入其他语言字符的比例，从原先高达47%骤降至1%。当然，探索并未止步。团队仍在研究更深层次的优化路径，例如在指令微调阶段混合一部分预训练语料，或者直接清理词表中那些早已不再使用的冗余标记。

这起事件带给行业的启示是深刻的。大模型的分词器往往基于极其广泛的互联网语料构建，但具体的下游应用场景却千差万别。如何在追求语义理解多样性和深度的同时，从最基础的统计学层面确保每一个词元都能获得足够的数据“曝光”，这将是未来提升大模型可靠性与一致性的关键所在。

MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致

词元偏移：被“挤压”的向量空间

系统性修复：为20万个词元建立“低保”

热门资讯

热门手游

相关攻略

热门专题