来源:互联网 更新时间:2026-05-30 08:24
OpenAI这次终于放出了那个传说中的“大招”——奥特曼在推特上预热了很久的“草莓”(Strawberry),现在它真身降临,代号o1。
说实话,这次带来的震撼确实不小。国内大模型的厂商们好不容易在4o的多模态能力上追得气喘吁吁,结果OpenAI一转身又杀回了纯文本领域——不对啊,不是说这块大家都已经搞得差不多、没什么空间了吗?
奥特曼自己也承认,o1目前还有很多缺陷。但有趣的是,他特意强调了一句:即便有缺陷,你第一次上手用的时候,照样会被它的表现震到。
从从业者的角度来看,这其实是一件好事。老板们发现这个赛道里能讲的故事还很大、饼还远远没被分完,资本还能继续往里投。百万级别的数据清洗工们,饭碗又稳了一阵子。
说得直白点——这等于把从愚昧之巅到绝望之谷的那个周期,又往后延了一大截。

这次发布的o1,核心定位非常明确:复杂任务推理。它主攻的领域包括竞赛级别的编程题、奥赛难度的数学题等,而且效果的提升跨度非常大——你可以粗略理解为,能力直接从高中生水平飙到了博士生水平。
举个例子,写代码这块:

在2024年国际信息学奥林匹克竞赛(IOI)的赛题上,o1拿到了213分,直接冲进了前49%的人类选手行列。这还不算什么,更猛的还在后面。
在全美高中生数学竞赛AIME上,o1拿到了74分——作为对比,GPT-4o只有12分。如果采样到1000次,配合奖励模型加权投票,分数能冲到93分。这意味着它已经能排进全美前500名,直接超过了美国数学奥林匹克(USAJMO/USAMO)的晋级线。
再来看GPQA——这是一个涵盖物理、化学和生物的高难度智力测试。OpenAI专门找了一批相关领域的博士专家来与o1同台竞技。结果呢?o1在GPQA-diamond题目上的得分,超过了一部分真正的博士专家。
视觉感知能力也不是短板。o1在MMMU上拿到了78.2%的分数,第一次让机器在综合多模态理解上达到了和人类专家比肩的水平。

还有一个非常有意思的细节:OpenAI在o1的基础上又专门加强了代码能力,以它为初始化训练了一个变体——o1-IOI。这个模型直接去参加了2024年的国际信息学奥林匹克竞赛(IOI)。和人类选手完全一样的条件:10小时内解决6道超高难度的竞赛题,每道题最多允许提交50次。最终o1-IOI拿到了216分。而在不限制提交次数的情况下,它更是轰出了362.14分——直接超过了金牌线。这种和人类顶尖选手同台竞技的测试,才是判断模型推理能力的终极标尺。
在Codeforces的竞技编程平台上,o1更是打出了惊人的1807分。
甚至安全性评分,这次也遥遥领先于之前的版本。
以前的LLM,训练、对齐、推理三个阶段的耗时是有固定格局的。但到了o1这里,这个分布完全变了。
举个例子:一个表面上看起来并不复杂的任务,o1处理起来可能消耗掉690多个token,耗时超过5秒钟——这在以前的模型上是不可想象的。
在训练阶段,模型通过强化学习不断优化自身的“思维链”(Chain of Thought),识别并纠正逻辑错误,把复杂的步骤拆解成更小的单位,发现当前的方法行不通就果断换一种。
而在推理阶段,模型则会在呈现给用户的最终答案之外,额外生成一个更深层的、甚至可以说是隐藏的“内部思维链”(long internal chain of thought)。这相当于给COT又套了一层COT,形成了一种递归式的深度推演。
知乎上一位叫白苏苏的博主给出了一个非常直观的解释:思维链和内在思维链的关系大致可以这样理解——
但要注意的是,OpenAI对训练方式只透露了“强化学习”四个字。从推理速度的表现来看,模型在生成最终答案之前,大概率是先输出了大量的中间推理token,直到触发了某个特定的输出标记(比如 {output}),才真正把结果抛出来。
至于这个能力是怎么训练出来的,业内目前有不同的猜测。网友MoonCancer提出了三种可能性:
第一种情况——如果使用的只是常规的预训练数据集,中间的CoT部分完全是通过强化学习无中生有、自我演化出来的,那这就意味着LLM的推理领域基本上被终结了,我们离AGI又实实在在地近了一步。
第二种情况——如果是用GPT-4o这样的成熟模型合成大量高精度的CoT数据,然后让o1去模仿学习,最后再把过于细节的中间过程隐藏起来,那么这个贡献等价于把模型有效scale了10倍,是一种非常漂亮的模型增强方法。
第三种情况——如果是专门请人写了大量高质量的CoT数据,然后硬生生地喂给模型微调进去,那就应了那句话:有多少人工,就有多少智能。
但不管哪种情况更接近真相,可以预见的是,接下来各家的实验室一定会迅速跟进这个方向。大家又有新活儿干了,老板们总算不用那么焦虑了。从这个角度看,OpenAI这次确实是给整个行业打了一剂强心针。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc