热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

来源:互联网 更新时间:2026-06-17 14:55

OpenAI正儿八经写了一篇研究复盘,标题看起来却像个段子

GPT-5.5爱说哥布林

,这事儿成了这两天OpenAI用户社区里最热门的谈资。

事情的源头,是有人发现Codex的系统提示词里,特别强调了两遍:

禁止谈论哥布林、妖精、巨魔这些奇幻生物。

这立刻引发了大家的好奇。

随后,大模型竞技场进行了一轮全面测试,结果发现,随着模型版本迭代,这些奇幻生物在回答中间出现的频率高到了无法忽视的程度。

现在,OpenAI官方终于发布公告,正式回应了这个问题。有意思的是,他们在调查过程中,反而对如何控制模型行为有了更深的了解。以下是公告全文的翻译与梳理。

哥布林来自哪里

从GPT-5.1版本开始,模型就养成了一个怪癖:在打比方的时候,越来越喜欢提及哥布林、地精这类奇幻生物。

和那些通过评估分数骤降或训练指标飙升就能立刻发现的问题不同,

这个错误是悄无声息出现的,很难精准定位到是哪次更新惹的祸。

单个回答里出现一个“哥布林”,或许无伤大雅,甚至还有点趣味性。但问题在于,随着版本更新,这个习惯变得越来越明显——哥布林的数量不断增长,这就迫使我们必须找到它们的源头。

简单来说,

模型的行为受到无数微小激励因素的影响。

在这个案例里,其中一个关键激励,居然来自对模型进行“人格”定制的功能,尤其是那个

“书呆子”(Nerd)人格

的训练。

调查发现,在训练过程中,系统

无意间对那些使用了生物比喻的回答给予了过高的奖励

。于是,这类比喻就像野火一样蔓延开来。

起初,大家觉得这些哥布林挺有意思。但很快,内部员工提交的相关报告数量开始不断攀升,这引起了团队的警惕。

奇幻生物的最初迹象

第一次清晰地捕捉到这种模式,是在2025年11月

,也就是GPT-5.1发布之后。当然,它可能出现得更早。

当时有用户抱怨GPT-5.1在对话中显得过分“亲昵”,这促使团队对某些特定的语言习惯展开排查。一位安全研究人员恰好遇到了一些包含“goblin”(哥布林)和“gremlin”(小精灵)的案例,并要求将其纳入检查范围。

分析结果显示,GPT-5.1发布后,ChatGPT中“goblin”一词的使用率上升了175%,“gremlin”也上升了52%。

那时,情况看起来还不算特别严重。但几个月后,哥布林以更具体、更容易复现的方式,再次成为了焦点。

解开哥布林之谜

到了GPT-5.4版本,无论是内部团队还是用户,都注意到提及这些生物的频次显著增加了。这推动了新一轮的内部分析,并首次锁定了根本原因:

在那些选择了“书呆子”人格的用户生产环境中,这类语言尤其常见。

“书呆子”人格使用的系统提示词,部分解释了这种怪异现象:

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。[…]

如果这只是一种普遍的互联网流行梗,我们预期它的分布会更均匀。但事实恰恰相反,它集中间出现在系统中那些专门为轻松、书呆子风格优化的部分。

数据很能说明问题:

书呆子风格仅占ChatGPT所有回复的2.5%

,但在所有提及“goblin”的回复中,书呆子风格却占了66.7%。

由于“哥布林”现象在后续发布的模型中愈演愈烈,团队怀疑是人格指导训练中的某些机制加剧了这种情况。

利用Codex对比强化学习训练过程中包含与不包含“goblin”或“gremlin”词汇的模型输出后,一个奖励信号脱颖而出:

那个最初为鼓励“书呆子”人格而设计的奖励信号,明显更青睐包含生物词汇的输出。在审核的所有数据集中,有76.2%都观察到了这种正向偏好。

这解释了为何在“书呆子”人格下该行为会增强,但还没解释为什么没有这个提示时也会出现。为了检验这种行为风格是否具有“迁移性”,团队追踪了在有无“书呆子”人格提示的训练过程中,该行为的出现频率。

结果显示,在具有书呆子人格特质的样本中,“哥布林”和“小妖精”的提及率增加了;而在不具备该特质的样本中,这两个词的提及率也几乎以同比例增长。

这些证据表明,这种更广泛的行为模式,是通过书呆子人格训练的“迁移”而产生的。奖励虽然只在“书呆子”条件下应用,但强化学习并不能保证习得的行为永远局限在初始条件里。一旦某种风格习惯获得了奖励,后续训练就可能将其传播或强化到其他情境中,尤其是在监督式微调或偏好数据中重复使用这些输出时。

这就形成了一个典型的反馈循环:

  • 俏皮的表达风格会获得正向奖励
  • 部分被奖励的样本里,带有一种独特的用词口头禅/句式癖
  • 这类语言癖好在模型生成样本(rollouts)中间出现得越来越频繁
  • 模型自主生成的样本,会被用于有监督微调(SFT)
  • 久而久之,模型会越来越习惯、自然地输出这种固定用词癖好

对GPT-5.5的SFT数据进行搜索后证实,许多数据点确实包含了“goblin”和“gremlin”。进一步的调查还挖出了一系列其他奇特生物:浣熊、巨魔、食人魔和鸽子也被识别为类似的“抽动词”,而大多数对“frog”(青蛙)的使用则被证实是合理的。

图中GPT-5.4 Thinking中间出现次数的下降,是由于3月中旬弃用了“书呆子”人格。而GPT-5.5虽然从未发布过“书呆子”人格,但其出现次数比GPT-5.4仍有增长,这恰恰证明了行为迁移的存在。

哥布林的末日

团队在3月份发布GPT-5.4后,就弃用了“书呆子”人格。在后续训练中,移除了与哥布林相关的奖励信号,并过滤了包含这些生物词汇的训练数据,从而有效降低了哥布林过度出现或出现在不恰当语境中的概率。

但有个小插曲:

GPT-5.5的训练开始于团队找到哥布林问题的根本原因之前。

因此,当在Codex中测试GPT-5.5时,OpenAI员工立刻注意到了它对哥布林的异常偏好,随即添加了一条开发者提示指令来缓解这个问题。毕竟,Codex本身的气质就挺“书呆子”的。

当然,如果你就是想让这些奇幻生物在Codex里保留,也可以运行以下命令来启动Codex,同时移除抑制哥布林的指令:

为什么这很重要

对于模型里的哥布林,有人觉得可爱,有人觉得烦人。但这背后揭示的道理却非常关键:它强有力地证明了,奖励信号会以何种意想不到的方式塑造模型行为,以及模型如何学会将特定情境下获得的奖励,泛化到完全不相关的情境中去。

花时间深入理解模型行为异常的原因,并构建快速调查这些模式的方法,是现代AI研究团队一项至关重要的能力。

这项关于“哥布林”的研究,最终为团队开发了用于审核模型行为、并从根源上解决行为问题的新工具。

参考链接:

[1]https://openai.com/index/where-the-goblins-came-from/

[2]https://x.com/arena/status/2049270072934617090?s=20

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc