来源:互联网 更新时间:2026-06-04 15:59
在多模态大模型的后训练流程里,业内似乎早已默认了一个“两步走”的范式:先做有监督微调(SFT),紧接着上强化学习(RL)。从DeepSeek到Qwen,从GRPO到DAPO,大家的精力都放在了如何优化RL算法上——提升稳定性、改进采样效率、设计更精巧的奖励函数。
但很少有人回过头来审视这个起点:从SFT到RL的这一步跳跃,真的就那么理所当然吗?
最近,一项由香港科技大学(广州)、南洋理工大学、清华大学等机构合作的研究(Beyond SFT-to-RL,简称PRISM)揭示了一个令人警惕的现象:
先来看一组对比数据。在7个主流多模态基准上的平均准确率显示:
阶段 |
Qwen3-VL-4B |
Qwen3-VL-8B |
|---|---|---|
| 原始Instruct模型 | 59.7% | 63.3% |
| SFT之后 | 56.8% (-3.0) | 58.1% (-5.2) |
| SFT → GRPO | 61.8% | 63.3% |
一个明显的趋势是:
这意味着什么?意味着后续的强化学习,很可能不是在“提升”模型,而是在“偿还”SFT阶段造成的性能损失。这并非孤例。在目前主流的强指令模型上,只要SFT数据引入的分布与原始基座模型不一致(例如使用来自GPT或Gemini的蒸馏数据),几乎都能观察到类似的性能回落。
原因其实很直接:这类经过大规模后训练的基座模型,其能力已经处于一个相对稳定和高位的状态。SFT强迫模型去模仿一套新的、通常更“窄”的数据分布,结果往往是旧有的广泛能力被“冲刷”掉,而新的能力又未能扎实建立。换句话说,
其背后的核心问题,是机器学习中老生常谈的“分布漂移”。但在多模态场景下,这个问题表现得更为隐蔽和复杂。
SFT在多模态任务中,主要会引入两类容易被忽视的偏差。
SFT的优化目标,是在均匀的Token级损失下模仿给定的演示轨迹。它并不区分什么是关键的“推理过程”,什么是次要的“格式化套话”。对模型而言,一个正确的逻辑步骤和一个固定的回答模板,在损失函数中的权重是一样的。
这导致的结果是,
这是多模态场景特有的麻烦。与纯文本模型不同,多模态模型的漂移不是单一的,而是两种性质完全不同的失败模式在同时发生:
这两种漂移的成因和纠正方式截然不同,但SFT却用同一个Token级别的损失函数将它们强行拟合在一起。当进入RL阶段时,模型往往已经在感知和推理两端都发生了偏移,变成了一个“既看不准,又想不对”的状态。
从GRPO到DAPO,再到GSPO,RL算法近期的确在不断进步。但它们主要解决的是
打个比方:这就像参加百米赛跑,SFT不仅没让你站上起跑线,反而把你向后推了50米。现有的RL算法都在研究如何跑得更快,但你的起点还在坑里。而PRISM要做的,就是在SFT和RL之间补上这缺失的一步——不仅把你拉回起跑线,还顺势往前推一把,让后续的RL只需要跑50米就能冲线。
PRISM打破了传统的两阶段范式,提出了一个全新的三阶段流水线:
其关键创新,就在于中间新增的“分布对齐”阶段。
既然感知漂移和推理漂移是两类不同的偏差,就需要分开处理。为此,PRISM设计了一个混合专家判别器,它由两个专门化的专家模块组成:
最终的判别得分是两者的加权组合:
PRISM的另一个巧妙之处在于它是
PRISM完全在
传统的RL训练通常会加入KL散度约束,以防止策略偏离初始模型太远。但PRISM有意识地
下面的示意图直观展示了模型输出分布的演变过程。从Base(基座)到Post-SFT(SFT后),再到Post-Alignment(对齐后),无论是推理步骤的数量分布,还是视觉描述项数的分布,都逐步向高质量的监督数据靠拢。
可以清晰地看到,Post-SFT(蓝线)与Supervision(黑线)之间仍有明显差距,而Post-Alignment(橙线)则大幅缩小了这一差距。更重要的是,这种改进在后续的Post-RLVR(绿线)阶段得以保持。
研究在Qwen3-VL的4B和8B两个模型规模上,将PRISM与
论文中的主结果(下表,灰色行代表使用了PRISM)揭示了几个关键信号:
从消融实验结果可以清晰地看到每个组件的贡献:
PRISM的出现,相当于为多模态大模型的后训练范式打上了一个关键的“补丁”。这个补丁的重要性,或许不亚于主程序本身。
它揭示了一个长期被忽视的事实:SFT和RL之间并非无缝衔接,而是存在一道分布上的断层。如果起点就是歪的,那么RL算法再强大,跑得越快,偏离目标也就越远。
要让多模态大模型在复杂推理任务上再进一步,未必总是需要更复杂的RL算法或海量的训练数据。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
蒙古上单是什么梗
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
韦一敏是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
免费看片软件下载地址推荐
免费看电影的软件推荐
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
有寓意的易经网名男生(精选100个)
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
晨字沙雕网名大全女生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc