来源:互联网 更新时间:2026-06-05 14:47
模型能力必须持续提升,但训练成本却不能再无限制地堆砌了——这几乎是当前AI行业最强烈的共识。
无论是开发者还是模型公司,关注的焦点已经不只是“谁家的模型更强”,而是一个更务实的问题:“在同样的GPU数量和训练时长下,能不能跑出更多有效实验,消化更多高质量数据,最终拿到更低的损失值和更好的下游任务指标?”
凭借Hermes Agent(在GitHub上已收获超过14万颗星)迅速出圈的Nous Research团队,最近提出了一种名为“Token Superposition Training”(TST,词元叠加训练)的新方法。这种方法的目标很明确:有望将大模型的预训练成本降低一个数量级。

相关论文《Efficient Pre-Training with Token Superposition》已在arXiv发布,其中一组百亿参数MoE模型的实验结果尤为引人注目。

这意味着什么?TST方法只用了大约四成的GPU时间,不仅跑出了更低的损失值,还获得了更好的下游任务表现。换算一下,在达到相同最终损失的前提下,预训练时间被压缩到了原来的40%左右,提速约2.5倍。
如果说,此前在OpenRouter排行榜上超越Claude 3.5 Sonnet的Hermes Agent,证明了Nous Research团队不仅擅长训练模型,还能通过Agent技术将模型能力调校到极致;那么这次提出的TST,则是将视线从“模型怎么用”拉回到了能力的源头,直指预训练过程本身的效率优化。
业界常将Nous Research与DeepSeek相提并论,不仅因为两者都长期坚守开源阵营,更因为它们在降低训练成本的路径选择上截然不同。
DeepSeek代表的是系统级的重构路线,无论是MoE架构、MLA注意力,还是各种稀疏化与并行优化技术,核心都是通过底层工程来极致压榨算力效率。这种提升往往伴随着额外的工程复杂度。
而Nous Research的TST,则选择重写模型在预训练早期的学习路径。它不触碰模型架构本身,而是从模型学习词元的方式下手,切口更轻巧,理论上也更容易落地集成到现有训练流程中。
要理解TST,得从预训练最基础的任务说起:下一个词元预测。
在标准训练中,模型看到前面的一系列词元,然后预测紧接着的下一个词元是什么。这个机制简单而强大,过去几年绝大多数主流大语言模型都是在这个范式下堆砌出来的。
但TST提出了一个很根本的疑问:
Nous Research的答案是否定的。他们将预训练过程拆解为两个阶段。

第一阶段称为“叠加阶段”。在训练前期,模型不再逐个处理词元,而是将连续多个词元打包成一个“袋”。例如,当袋大小为8时,就把连续的8个词元视为一组。
在输入侧,模型会将这一组词元的向量表示求平均,压缩成一个单一的“叠加词元”。在输出侧,模型的预测目标也随之改变:不再是预测下一个具体的词元,而是预测接下来这一组词元中可能会出现哪些词元(一个多标签分类问题)。
第二阶段则是“恢复阶段”。当训练进行到一定比例(例如总步数的20%-40%)后,TST机制被移除,模型切换回标准的“下一个词元预测”训练。也就是说,训练的后半程完全按照普通大语言模型的方式进行,目的是将前期“粗粒度学习”获得的语义表示,精细化为可生成、可部署的自回归模型。
论文将TST称为一种“即插即用”的预训练方法,关键就在于此:它不需要修改并行策略、优化器、分词器、训练数据或最终的模型架构。
这也让它与许多训练提效方案区别开来:
当然,全程使用TST训练是不可行的。论文明确指出,如果模型自始至终都使用TST,它会输出多个未来词元的混合概率,导致生成结果混乱。因此,
这也就解释了,为什么TST更适合被理解为一种“阶段化的训练策略”,而非对“下一个词元预测”范式的彻底替代。
说得更直白些,TST做的事情,有点像让模型在预训练早期先进行“粗读”:快速掌握局部语义、词汇共现和粗粒度的概率分布。等到模型建立起基础的语言表示之后,再切换回“精读”模式,通过标准的逐词元训练来补全精确的生成能力。
TST带来的提速效果并非玄学,其核心是一种资源上的权衡:
这里的数据吞吐量,对应论文中的“单位浮点运算所能处理的原始文本量”。简单来说,不是GPU突然变快了,而是在进行同样一次计算时,模型能“看到”的文本内容变多了。
在标准训练中,模型序列的每个位置处理一个词元。假设序列长度为L,Transformer就需要处理L个向量表示。
但在TST的叠加阶段,连续的s个词元被合成一个叠加词元。此时,模型内部需要处理的序列长度变短了,但每个位置所对应的原始文本信息量却变成了原来的s倍。因为模型是在更粗粒度的表示上进行计算,所以在消耗相同浮点运算量的前提下,它可以处理s倍数量的原始数据词元。

传统的预训练好比逐字精读,而TST的早期训练则像是先快速浏览段落大意,抓住主题和关键词。这种“粗读”当然有代价——它会丢失“袋”内词元的顺序信息,因此不能全程使用。但在模型刚刚接触语言统计规律的初期,这种低分辨率的输入反而够用且高效。
论文将此定义为一种“由粗到细”的策略:先让模型在简单、高吞吐的设定下学习粗粒度的统计结构,再恢复全分辨率的语言建模精度。
这与当前主流的其他效率提升路线形成了鲜明对比:
它不是让模型体积变小,也不是直接让推理变快,而是让预训练早期的每一步计算都变得更“值钱”。
这一点对开发者至关重要。预训练从来不是一锤子买卖,而是一个不断试错、调整配方和超参数的过程。早期训练越快进入有效区间,就意味着数据混合策略、超参数设置等关键实验能越早得到验证。
说白了,
论文的实验并未局限于小模型,而是在270M、600M、3B的稠密模型,以及一个总参数量约100亿、每词元激活参数量约10亿的MoE模型上进行了验证。这个百亿级MoE模型,正是开篇提到的、收益最为显著的案例。


实验数据显示,TST方法消耗了更多的数据词元,但却用更少的GPU时间达到了更优的结果。在达到相同损失值的条件下,TST实现了约2.5倍的训练提速。
这个数字足以让任何进行大规模预训练的团队心动。因为在模型研发中,最昂贵的往往不是那一次最终成功的训练,而是成功之前所有的探索和试错。
论文还进行了多组超参数扫描实验,观察不同“袋”大小和叠加阶段训练步数比例的影响。结论是,在合理范围内,TST对超参数的选择相对稳健:袋大小在4到8之间,叠加训练步数比例在0.2到0.4时,通常能取得较好的效果。

此外,TST的收益并非单一机制所致。论文通过消融实验发现,单独使用输入侧的“叠加”或输出侧的“多标签预测”,都能优于基线,但两者结合(即完整的TST)效果最佳。这表明,

这套机制的启发在于,输入侧在训练早期给了模型一个低分辨率视野,让它以更低成本接触更多文本;输出侧则像是把监督问题从“下一个词是什么”改成了“接下来这一小段大概会包含哪些词”。前者提高了数据吞吐,后者提高了学习效率。
这也正是TST与单纯的多词元预测技术本质上的不同。后者是在同一位置额外预测多个未来词元;而TST则是同时改变了输入和输出的粒度。
TST最值得玩味的地方,不在于它设计了多么复杂的架构,而在于它揭示了一个趋势:
过去一提降低成本,行业本能反应往往是增加算力、修改架构、优化并行、进行知识蒸馏。这些都是系统级的“重体力活”,没有雄厚工程实力的团队很难承接。但TST提供了一个轻量得多的切入点:
这意味着什么?对于广大开发者而言,同样规模的GPU预算下,可以进行更多轮的实验;对于专注于1B到10B参数规模的垂直领域模型团队来说,试错成本有望显著下降。
当然,TST也并非免费的午餐。它本质上是“用数据吞吐量置换GPU计算时间”。
但这并不影响其方向性的价值。TST把一个被默认太久的问题重新摆上了台面:
当模型训练变得越来越昂贵,真正有价值的创新可能不只是如何把模型做得更大,而是如何让模型“更会学习”。更准确地说,是如何让训练过程中的每一步计算,都产生更高的价值。
论文:http://arxiv.org/abs/2605.06546
下饭影视APP下载安装指南
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
《Off Campus》第二季官宣:这对CP还在,但不再是主角
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
短视频软件推荐
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
洛克王国世界S2赛季狂欢怪谈介绍
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc