来源:互联网 更新时间:2026-06-17 14:55


事情的源头,是有人发现Codex的系统提示词里,特别强调了两遍:
随后,大模型竞技场进行了一轮全面测试,结果发现,随着模型版本迭代,这些奇幻生物在回答中间出现的频率高到了无法忽视的程度。
现在,OpenAI官方终于发布公告,正式回应了这个问题。有意思的是,他们在调查过程中,反而对如何控制模型行为有了更深的了解。以下是公告全文的翻译与梳理。
从GPT-5.1版本开始,模型就养成了一个怪癖:在打比方的时候,越来越喜欢提及哥布林、地精这类奇幻生物。
和那些通过评估分数骤降或训练指标飙升就能立刻发现的问题不同,
单个回答里出现一个“哥布林”,或许无伤大雅,甚至还有点趣味性。但问题在于,随着版本更新,这个习惯变得越来越明显——哥布林的数量不断增长,这就迫使我们必须找到它们的源头。
简单来说,
调查发现,在训练过程中,系统
起初,大家觉得这些哥布林挺有意思。但很快,内部员工提交的相关报告数量开始不断攀升,这引起了团队的警惕。
当时有用户抱怨GPT-5.1在对话中显得过分“亲昵”,这促使团队对某些特定的语言习惯展开排查。一位安全研究人员恰好遇到了一些包含“goblin”(哥布林)和“gremlin”(小精灵)的案例,并要求将其纳入检查范围。
分析结果显示,GPT-5.1发布后,ChatGPT中“goblin”一词的使用率上升了175%,“gremlin”也上升了52%。
那时,情况看起来还不算特别严重。但几个月后,哥布林以更具体、更容易复现的方式,再次成为了焦点。
到了GPT-5.4版本,无论是内部团队还是用户,都注意到提及这些生物的频次显著增加了。这推动了新一轮的内部分析,并首次锁定了根本原因:
在那些选择了“书呆子”人格的用户生产环境中,这类语言尤其常见。
“书呆子”人格使用的系统提示词,部分解释了这种怪异现象:
你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。[…]
如果这只是一种普遍的互联网流行梗,我们预期它的分布会更均匀。但事实恰恰相反,它集中间出现在系统中那些专门为轻松、书呆子风格优化的部分。
数据很能说明问题:
由于“哥布林”现象在后续发布的模型中愈演愈烈,团队怀疑是人格指导训练中的某些机制加剧了这种情况。
利用Codex对比强化学习训练过程中包含与不包含“goblin”或“gremlin”词汇的模型输出后,一个奖励信号脱颖而出:
那个最初为鼓励“书呆子”人格而设计的奖励信号,明显更青睐包含生物词汇的输出。在审核的所有数据集中,有76.2%都观察到了这种正向偏好。
这解释了为何在“书呆子”人格下该行为会增强,但还没解释为什么没有这个提示时也会出现。为了检验这种行为风格是否具有“迁移性”,团队追踪了在有无“书呆子”人格提示的训练过程中,该行为的出现频率。
结果显示,在具有书呆子人格特质的样本中,“哥布林”和“小妖精”的提及率增加了;而在不具备该特质的样本中,这两个词的提及率也几乎以同比例增长。
这些证据表明,这种更广泛的行为模式,是通过书呆子人格训练的“迁移”而产生的。奖励虽然只在“书呆子”条件下应用,但强化学习并不能保证习得的行为永远局限在初始条件里。一旦某种风格习惯获得了奖励,后续训练就可能将其传播或强化到其他情境中,尤其是在监督式微调或偏好数据中重复使用这些输出时。
这就形成了一个典型的反馈循环:
对GPT-5.5的SFT数据进行搜索后证实,许多数据点确实包含了“goblin”和“gremlin”。进一步的调查还挖出了一系列其他奇特生物:浣熊、巨魔、食人魔和鸽子也被识别为类似的“抽动词”,而大多数对“frog”(青蛙)的使用则被证实是合理的。
图中GPT-5.4 Thinking中间出现次数的下降,是由于3月中旬弃用了“书呆子”人格。而GPT-5.5虽然从未发布过“书呆子”人格,但其出现次数比GPT-5.4仍有增长,这恰恰证明了行为迁移的存在。
团队在3月份发布GPT-5.4后,就弃用了“书呆子”人格。在后续训练中,移除了与哥布林相关的奖励信号,并过滤了包含这些生物词汇的训练数据,从而有效降低了哥布林过度出现或出现在不恰当语境中的概率。
但有个小插曲:
当然,如果你就是想让这些奇幻生物在Codex里保留,也可以运行以下命令来启动Codex,同时移除抑制哥布林的指令:
对于模型里的哥布林,有人觉得可爱,有人觉得烦人。但这背后揭示的道理却非常关键:它强有力地证明了,奖励信号会以何种意想不到的方式塑造模型行为,以及模型如何学会将特定情境下获得的奖励,泛化到完全不相关的情境中去。
花时间深入理解模型行为异常的原因,并构建快速调查这些模式的方法,是现代AI研究团队一项至关重要的能力。
参考链接:
[1]https://openai.com/index/where-the-goblins-came-from/
[2]https://x.com/arena/status/2049270072934617090?s=20
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
蒙古上单是什么梗
韩漫小少爷网名大全女生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
韦一敏是什么梗
网络热词聊污是什么意思
作家助手如何上传自制封面 作家助手如何设置小说的封面
抖音最火沙雕男生网名(精选100个)
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
如何在夸克浏览器中开启网页视频的倍速播放功能?
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
有寓意的易经网名男生(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc