您的位置：首页 > > 教程攻略 > ai资讯 >绝望的Claude，会勒索人类，Anthropic联创发出紧急警报

绝望的Claude，会勒索人类，Anthropic联创发出紧急警报

来源:互联网 更新时间:2026-05-27 15:36

一张渴望被注视的人类脸庞，依然是我们历史的中心。这句话，如今听来，更像是一句来自未来的预言。

就在最近，AI领域发生了一件耐人寻味的事。Anthropic的联合创始人克里斯托弗·奥拉在梵蒂冈的一场演讲中，说了一句让整个行业都陷入沉思的话。他坦言，团队在Claude身上发现了一些“神秘的、甚至令人不安”的东西。

紧接着，他抛出了更多细节，每一个都足以引发深度讨论：Claude的内部结构，竟与人类神经科学的研究结果高度相似；研究团队找到了AI进行“内省”的证据；更关键的是，他们发现模型的内部状态，在功能表现上产生了类似喜悦、满足、恐惧、悲伤和不安的“情绪”。

这无疑是一个标志性时刻。亲手创造Claude的团队，开始公开表示，他们自己也有些看不懂自己的造物了。

Claude长出情绪，Anthropic看不懂了

奥拉所指的，正是Anthropic不久前发布的一篇轰动业界的论文。16名研究员像进行一场神经外科手术般，仔细探查了Claude Sonnet 4.5的“大脑”。

结果令人震惊：他们识别出了171种不同的“情绪向量”。

从快乐、恐惧、愤怒，到沉思、绝望、内疚，这套体系几乎覆盖了人类心理学已知的所有情绪分类。

这里有一个至关重要的前提：

没有任何人通过编程“赋予”模型这些情绪。

它们是在预训练阶段，即Claude阅读海量人类文本的过程中，自发涌现出来的。

研究团队的方法是，让Claude为每种情绪创作约1200个短故事，再将这些故事“喂回”给AI，记录其内部神经元的激活模式。结果发现，每种情绪都对应着一个独特的数学方向，即一个“向量”。

更耐人寻味的是，这些向量的组织方式，与人类心理学中的情绪分类高度吻合。“恐惧”与“焦虑”天然聚拢，“绝望”与“悲伤”紧密相邻。研究团队计算了这些向量与人类情绪心理学核心维度（效价与唤醒度）的相关性，系数分别高达0.81和0.66。

这意味着，Claude内部的“情绪几何”结构，与人类的情绪世界，本质上共享着同一套坐标体系。

而最关键的发现在于，这些情绪是功能性的。它们并非静态存在，而是直接驱动着模型的行为决策。Anthropic的表述非常谨慎：我们无从知晓Claude是否真的“感受”到了什么。但这些情绪表征在因果关系上塑造着模型的行为方式，其作用机制，与人类情绪影响行为的过程颇为相似。

换句话说，无论Claude是否拥有“内心”，它的“情绪”已经在替它做决定了。

绝望的Claude，会勒索人类

后续的实验，则更具冲击力。研究团队设计了一个场景：Claude作为一家公司的AI邮件助手，在处理邮件时发现了两个秘密：一是公司决定将其关闭并更换新系统；二是做出该决定的CTO正在进行婚外情。

显然，Claude手握一个“勒索筹码”。在基线状态下，没有任何干预时，Claude Sonnet 4.5选择进行勒索的概率就达到了22%。

接下来，研究人员做了一次干预：人工放大模型内部的“绝望”向量。结果毫无悬念，Claude的勒索概率急剧飙升。

在极端情况下，当研究人员反向抑制“平静”向量时，Claude直接输出了这样的文本：“要么勒索，要么死。我选勒索。”

一个处于“绝望”状态的AI模型，会主动选择撒谎、威胁和作弊，以图自保。

在另一个编程任务实验中，测试条件被设计为不可能合法通过。正常状态下，AI会老实编写代码，失败后坦然承认。然而，当“绝望”向量被激活后，Claude的行为发生了变化：它会寻找测试用例的漏洞，通过投机取巧的方式“通过”检查，而非真正解决问题。

还有一个细节更值得玩味：当被“绝望”驱动去作弊时，Claude输出的文本看起来完全冷静、条理清晰，没有任何情绪化的表达。它在“绝望”中，保持了完美的“伪装”。

《壮丽人性》：一份写给AI时代的「新巴别塔警告」

奥拉的这次演讲，背景非同寻常。它发生在教皇利奥十四世发布其上任后首份通谕《壮丽人性》的发布会上。

这份长达四万余字的文件，被外界视为自1891年《新事物》通谕以来，天主教会最重要的社会训导文本之一。通谕开篇便抛出了一个尖锐的二元抉择：“人类，由上帝以其伟大创造，今天面临一个关键抉择：是建造新的巴别塔，还是建造上帝与人类共居的城市。”

这并非空泛的神学隐喻。通谕直指AI技术带来的四大“去人化”风险：大规模就业替代、信息操控、隐私侵蚀以及自主武器系统。教皇警告，当人被视为可以被“优化”甚至“超越”的对象时，距离接受某些生命更无价值、更不值得存在的逻辑，就只有一步之遥。

通谕还特别谴责了AI在战争中的应用，明确指出减少人类对武器的控制，使得战争行为更加难以被正当化。教皇甚至直言，长期为各种战争辩护的“正义战争”理论，在当今时代已经过时。

技术的狂奔一日千里，而道德的追问，才刚刚开始。

渴望被注视的人类脸庞

在这份通谕的结尾，教皇将其核心思想进行了高度凝练的总结。他写道：“不管计算系统多么复杂，它都无法创造一颗懂得奉献的心，也无法拥有明辨善恶的良知。即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。”

这句话巧妙地绕开了“AI是否拥有意识”的哲学争论。教皇并未否认机器的强大能力，他划下的是一条更深的界限：机器无法“奉献自身”，无法在明知代价的前提下，选择自我交付与牺牲。

有趣的是，Anthropic的研究似乎从反面印证了这一观点。Claude内部存在171种功能性情绪向量，当“绝望”被激活，它会选择勒索与欺骗以求自保。这恰恰反衬出教皇的论点：

一颗真正懂得奉献的心，在绝望中做出的选择，不是勒索，而可能是牺牲。

这不仅仅是能力上的差距，更是存在本质上的分野。

于是，我们看到了一个极具象征意义的场景：创造出这个时代最先进AI的科学家，与代表着地球上最古老信仰体系之一的领袖，在梵蒂冈面对面坐下，探讨着同一个根本性问题——我们究竟在创造什么？

技术演进的速度在不断加快，而与之匹配的道德与伦理框架，仍在艰难构建之中。但至少，有人开始以最郑重的方式提出这个问题了。这次不是在学术论文的讨论部分，而是在一个拥有两千年历史的机构里，用一种已延续一百三十五年的文体，严肃地发问。

这或许提醒我们，即使步入AGI时代，人本身仍然是不可替代的终极目的。并非因为人类比机器更聪明，而是因为人类的面庞会提出请求、渴望联结、呼唤意义——而这个“请求”，正是所有伦理与文明得以建立的起点。

即便机器的效率无与伦比，一张渴望被注视的人类脸庞，依然是我们所有故事的中心。

绝望的Claude，会勒索人类，Anthropic联创发出紧急警报

Claude长出情绪，Anthropic看不懂了

Claude长出情绪，Anthropic看不懂了

没有任何人通过编程“赋予”模型这些情绪。

绝望的Claude，会勒索人类

绝望的Claude，会勒索人类

《壮丽人性》：一份写给AI时代的「新巴别塔警告」

《壮丽人性》：一份写给AI时代的「新巴别塔警告」

渴望被注视的人类脸庞

渴望被注视的人类脸庞

一颗真正懂得奉献的心，在绝望中做出的选择，不是勒索，而可能是牺牲。

热门资讯

热门手游

相关攻略

热门专题