来源:互联网 更新时间:2026-06-07 15:11
「语言是离散的,但语言模型不一定是。」这句话,恰好点出了当前大语言模型研究的一个有趣分野。
去年,一个名为LLaDA的项目在AI圈内激起了不小的波澜。它基于「掩码扩散」原理,宣称在多项基准测试中,其性能足以与同规模的自回归大模型(即GPT这类逐字生成的模型)相媲美。这一下子,让原本略显小众的扩散语言模型(Diffusion Language Model, DLM)研究,走到了更多人的聚光灯下。
问题在于,文字本质上是离散的token序列,而扩散模型最初是为处理连续数据(如图像)而设计的。这种「先天不合」,使得视觉生成领域的主流技术,很难直接套用在语言模型上。
LLaDA证明了扩散路径的可行性之后,各路研究团队纷纷跟进。大家逐渐形成一个共识:扩散模型在文本生成上潜力巨大。它天生支持并行解码,理论上生成速度可以远超逐字输出的自回归模型。同时,它也更容易实现「填空」、「双向修改」等对自回归模型来说颇为棘手的任务。
目前,研究者主要沿着两条技术路线探索:
而最近,何恺明团队发表的一篇新论文,恰恰选择了那条更困难的后者路线。
他们提出的模型名为

论文共一作者Linlu Qiu在社交媒体上分享了这一成果。
令人惊讶的是,实验结果显示,这个思路不仅可行,效果还出奇地好:仅用了不到其他方法十分之一的训练数据,其生成质量就已经实现了全面领先。

论文标题:ELF: Embedded Language Flows
这篇论文来自MIT的一支八人团队,通讯作者是计算机视觉领域的标志性人物——

业内对何恺明新工作的关注度一向很高。

而ELF,可以说是这支团队在语言生成方向上一次颇具巧思的尝试。他们的想法很直接:
具体来说,ELF的工作流程分为三步:
首先,通过一个预训练好的编码器(论文中使用了T5编码器),将一句话中的每个词转换为包含上下文语义的「语境嵌入」向量。这一步,离散的文字被投射到了一个高维的连续空间。
接着,采用近年来在图像生成中表现优异的
最后,也是

这与之前的连续扩散语言模型有本质区别。
ELF在架构设计上还有一个巧思:它使用同一个神经网络来承担「去噪」和「解码」两项任务,通过一个特殊的「模式标记」(mode token)进行切换。
在训练阶段,这个网络80%的时间用于学习如何去除噪声(最小化均方误差损失),剩下20%的时间则学习如何将最终的干净嵌入向量准确映射回对应的词语(最小化交叉熵损失)。

到了推理生成的时候,在最终步骤之前,网络始终运行在去噪模式下;当去噪完成,只需切换标记,网络便进入解码模式,完成从向量到词语的翻译。这种设计避免了训练一个独立解码器的开销,使得整个流程非常简洁高效。

此外,ELF还引入了「自条件」(Self-Conditioning)机制。简单说,网络在每一步去噪时,可以参考自己上一步的预测结果,而不是每次都从头开始猜测。这不仅提升了生成质量,还为CFG等技术提供了现成的条件信号来源,且几乎没有增加额外的计算成本。
论文中的实验结果颇具说服力。研究团队在扩散语言模型领域通用的标准设定下进行了评估:使用OpenWebText语料库进行训练,并以生成困惑度(值越低越好,代表文本越流畅自然)和词汇熵(值越高越好,代表生成多样性越丰富)作为核心指标。

数据显示,
训练数据量的对比更为悬殊。根据论文统计,MDLM、Duo、FLM等主流方法通常使用了约5000亿个Token进行训练,而ELF仅用了大约450亿个Token——

在更具实际应用价值的条件生成任务上,ELF同样表现突出。在WMT14德英机器翻译基准测试中,ELF取得了26.4的BLEU分数,超越了同等规模的自回归模型(25.2)以及MDLM(18.4)、CDCD(24.9)等竞争对手。在XSum新闻摘要任务上,ELF在ROUGE-1、ROUGE-2、ROUGE-L三项关键指标上也均位列第一。
过去两年,扩散语言模型的研究进展几乎都集中在离散空间——研究者们不断优化掩码策略、提升解码效率、扩大训练规模。而连续扩散路线,因其与语言的「离散本质」之间存在理论上的张力,长期处于相对边缘的位置。
ELF的出现,提供了一个全新的视角和有力的证明:
当然,ELF目前的评估仍主要基于中等规模的模型和学术基准。它能否在千亿乃至更大参数规模上,在更广泛、更复杂的实际任务中,与当前最强的自回归大模型形成真正有竞争力的对抗,还需要后续更多的工作来验证。
但无论如何,当下的结果已经清晰地回答了一个悬而未决的问题:连续扩散语言模型这条路,似乎终于找对了方向。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
archiveofourown 实战指南:常见用法整理
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
电视剧《小欢喜》剧情介绍
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
美国市场:股票相对债券的风险溢价正在消失
电影《遁甲门之消失的公主》剧情介绍
全链网:黄金价格因美元的走强及利率担忧而下跌
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
植物娘大战僵尸电脑端与手机端存档转移的方法
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc