来源:互联网 更新时间:2026-06-22 18:18
真是令人意外。
这件事最近由 PPO 的作者 John Schulman 本人提起。他只用了简单一句话概括这段往事:PPO,曾经被 NIPS 2017 拒稿。

这篇最早发表于 2017 年 7 月的论文,在当时的语境下,看起来不过是一个更简单、更工程友好的策略优化算法。它的初衷,是在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习变得更好调、更实用。

但几年之后,真正把 PPO 推向更广阔舞台的,反而不是 Atari、机器人控制这些传统的强化学习任务,而是大语言模型。
从 RLHF 到今天的 RLVR,PPO 已经成为大模型后训练中绕不开的基础算法之一。用 Schulman 自己的说法,PPO 在 LLM 时代迎来了第二波热潮,其影响力的广度,甚至超出了原论文当年的预期。

这听起来不像是在抱怨当年的被拒,更像是一种事后的感慨:一项技术的真正影响力,往往以发明者最初未曾预料到的方式释放出来。
那么,PPO 当年为什么会被拒?
Schulman 事后给出的解释很坦诚:这篇论文在当时被认为创新性有限,相比已有的基线方法,提升也不够明显。

有网友评论道,这背后其实折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性,以及在小规模、受控实验环境下对基线的提升。而真实世界更在意的是,一个方法能否扩展到更大规模,能否在复杂的系统中保持稳定,以及——能不能真正跑起来。

Schulman 对此显得很平和。他说,那已经是过去很久的事了,希望这些年过去,学术界已经逐渐理解并接纳了这种“简单但可规模化”的审美。
真正让他感到意外的,是 PPO 这篇论文以及其中的目标函数,竟然能持续影响这么久。一个算法改动,到底是很快被遗忘、被替代的小修小补,还是会长期留在系统里,成为难以超越的基础组件?这个问题,往往在最初很难判断。
而 PPO 的故事,恰好说明了这一点。

其实,历史上有太多这样的例子。AI 领域中,不少后来被证明影响深远的工作,都曾在最初投稿时被顶会拒之门外。
有时候,时间才是最严格,也最公平的评审。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
帅气继父网名女生可爱英文(精选100个)
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
帅到极致的网名女生霸气(精选100个)
如何在夸克浏览器中开启网页视频的倍速播放功能?
蒙古上单是什么梗
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
作家助手如何上传自制封面 作家助手如何设置小说的封面
archiveofourown 实战指南:常见用法整理
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
抖音最火沙雕男生网名(精选100个)
有寓意的易经网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
小众游戏抖音网名男生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc