您的位置：首页 > > 教程攻略 > ai资讯 >OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

来源:互联网 更新时间:2026-06-17 14:55

OpenAI正儿八经写了一篇研究复盘，标题看起来却像个段子

GPT-5.5爱说哥布林

，这事儿成了这两天OpenAI用户社区里最热门的谈资。

事情的源头，是有人发现Codex的系统提示词里，特别强调了两遍：

禁止谈论哥布林、妖精、巨魔这些奇幻生物。

这立刻引发了大家的好奇。

随后，大模型竞技场进行了一轮全面测试，结果发现，随着模型版本迭代，这些奇幻生物在回答中间出现的频率高到了无法忽视的程度。

现在，OpenAI官方终于发布公告，正式回应了这个问题。有意思的是，他们在调查过程中，反而对如何控制模型行为有了更深的了解。以下是公告全文的翻译与梳理。

哥布林来自哪里

从GPT-5.1版本开始，模型就养成了一个怪癖：在打比方的时候，越来越喜欢提及哥布林、地精这类奇幻生物。

和那些通过评估分数骤降或训练指标飙升就能立刻发现的问题不同，

这个错误是悄无声息出现的，很难精准定位到是哪次更新惹的祸。

单个回答里出现一个“哥布林”，或许无伤大雅，甚至还有点趣味性。但问题在于，随着版本更新，这个习惯变得越来越明显——哥布林的数量不断增长，这就迫使我们必须找到它们的源头。

简单来说，

模型的行为受到无数微小激励因素的影响。

在这个案例里，其中一个关键激励，居然来自对模型进行“人格”定制的功能，尤其是那个

“书呆子”（Nerd）人格

的训练。

调查发现，在训练过程中，系统

无意间对那些使用了生物比喻的回答给予了过高的奖励

。于是，这类比喻就像野火一样蔓延开来。

起初，大家觉得这些哥布林挺有意思。但很快，内部员工提交的相关报告数量开始不断攀升，这引起了团队的警惕。

奇幻生物的最初迹象

第一次清晰地捕捉到这种模式，是在2025年11月

，也就是GPT-5.1发布之后。当然，它可能出现得更早。

当时有用户抱怨GPT-5.1在对话中显得过分“亲昵”，这促使团队对某些特定的语言习惯展开排查。一位安全研究人员恰好遇到了一些包含“goblin”（哥布林）和“gremlin”（小精灵）的案例，并要求将其纳入检查范围。

分析结果显示，GPT-5.1发布后，ChatGPT中“goblin”一词的使用率上升了175%，“gremlin”也上升了52%。

那时，情况看起来还不算特别严重。但几个月后，哥布林以更具体、更容易复现的方式，再次成为了焦点。

解开哥布林之谜

到了GPT-5.4版本，无论是内部团队还是用户，都注意到提及这些生物的频次显著增加了。这推动了新一轮的内部分析，并首次锁定了根本原因：

在那些选择了“书呆子”人格的用户生产环境中，这类语言尤其常见。

“书呆子”人格使用的系统提示词，部分解释了这种怪异现象：

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师，指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙，这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时，切忌陷入自命不凡的陷阱。[…]

如果这只是一种普遍的互联网流行梗，我们预期它的分布会更均匀。但事实恰恰相反，它集中间出现在系统中那些专门为轻松、书呆子风格优化的部分。

数据很能说明问题：

书呆子风格仅占ChatGPT所有回复的2.5%

，但在所有提及“goblin”的回复中，书呆子风格却占了66.7%。

由于“哥布林”现象在后续发布的模型中愈演愈烈，团队怀疑是人格指导训练中的某些机制加剧了这种情况。

利用Codex对比强化学习训练过程中包含与不包含“goblin”或“gremlin”词汇的模型输出后，一个奖励信号脱颖而出：

那个最初为鼓励“书呆子”人格而设计的奖励信号，明显更青睐包含生物词汇的输出。在审核的所有数据集中，有76.2%都观察到了这种正向偏好。

这解释了为何在“书呆子”人格下该行为会增强，但还没解释为什么没有这个提示时也会出现。为了检验这种行为风格是否具有“迁移性”，团队追踪了在有无“书呆子”人格提示的训练过程中，该行为的出现频率。

结果显示，在具有书呆子人格特质的样本中，“哥布林”和“小妖精”的提及率增加了；而在不具备该特质的样本中，这两个词的提及率也几乎以同比例增长。

这些证据表明，这种更广泛的行为模式，是通过书呆子人格训练的“迁移”而产生的。奖励虽然只在“书呆子”条件下应用，但强化学习并不能保证习得的行为永远局限在初始条件里。一旦某种风格习惯获得了奖励，后续训练就可能将其传播或强化到其他情境中，尤其是在监督式微调或偏好数据中重复使用这些输出时。

这就形成了一个典型的反馈循环：

俏皮的表达风格会获得正向奖励
部分被奖励的样本里，带有一种独特的用词口头禅/句式癖
这类语言癖好在模型生成样本（rollouts）中间出现得越来越频繁
模型自主生成的样本，会被用于有监督微调（SFT）
久而久之，模型会越来越习惯、自然地输出这种固定用词癖好

对GPT-5.5的SFT数据进行搜索后证实，许多数据点确实包含了“goblin”和“gremlin”。进一步的调查还挖出了一系列其他奇特生物：浣熊、巨魔、食人魔和鸽子也被识别为类似的“抽动词”，而大多数对“frog”（青蛙）的使用则被证实是合理的。

图中GPT-5.4 Thinking中间出现次数的下降，是由于3月中旬弃用了“书呆子”人格。而GPT-5.5虽然从未发布过“书呆子”人格，但其出现次数比GPT-5.4仍有增长，这恰恰证明了行为迁移的存在。

哥布林的末日

团队在3月份发布GPT-5.4后，就弃用了“书呆子”人格。在后续训练中，移除了与哥布林相关的奖励信号，并过滤了包含这些生物词汇的训练数据，从而有效降低了哥布林过度出现或出现在不恰当语境中的概率。

但有个小插曲：

GPT-5.5的训练开始于团队找到哥布林问题的根本原因之前。

因此，当在Codex中测试GPT-5.5时，OpenAI员工立刻注意到了它对哥布林的异常偏好，随即添加了一条开发者提示指令来缓解这个问题。毕竟，Codex本身的气质就挺“书呆子”的。

当然，如果你就是想让这些奇幻生物在Codex里保留，也可以运行以下命令来启动Codex，同时移除抑制哥布林的指令：

为什么这很重要

对于模型里的哥布林，有人觉得可爱，有人觉得烦人。但这背后揭示的道理却非常关键：它强有力地证明了，奖励信号会以何种意想不到的方式塑造模型行为，以及模型如何学会将特定情境下获得的奖励，泛化到完全不相关的情境中去。

花时间深入理解模型行为异常的原因，并构建快速调查这些模式的方法，是现代AI研究团队一项至关重要的能力。

这项关于“哥布林”的研究，最终为团队开发了用于审核模型行为、并从根源上解决行为问题的新工具。

参考链接：

[1]https://openai.com/index/where-the-goblins-came-from/

[2]https://x.com/arena/status/2049270072934617090?s=20

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

OpenAI正儿八经写了一篇研究复盘，标题看起来却像个段子

GPT-5.5爱说哥布林

禁止谈论哥布林、妖精、巨魔这些奇幻生物。

哥布林来自哪里

哥布林来自哪里

这个错误是悄无声息出现的，很难精准定位到是哪次更新惹的祸。

模型的行为受到无数微小激励因素的影响。

“书呆子”（Nerd）人格

无意间对那些使用了生物比喻的回答给予了过高的奖励

奇幻生物的最初迹象

奇幻生物的最初迹象

第一次清晰地捕捉到这种模式，是在2025年11月

解开哥布林之谜

解开哥布林之谜

书呆子风格仅占ChatGPT所有回复的2.5%

哥布林的末日

哥布林的末日

GPT-5.5的训练开始于团队找到哥布林问题的根本原因之前。

为什么这很重要

为什么这很重要

这项关于“哥布林”的研究，最终为团队开发了用于审核模型行为、并从根源上解决行为问题的新工具。

热门资讯

热门手游

相关攻略

热门专题