热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >绝望的Claude,会勒索人类,Anthropic联创发出紧急警报

绝望的Claude,会勒索人类,Anthropic联创发出紧急警报

来源:互联网 更新时间:2026-05-27 15:36

一张渴望被注视的人类脸庞,依然是我们历史的中心。这句话,如今听来,更像是一句来自未来的预言。

就在最近,AI领域发生了一件耐人寻味的事。Anthropic的联合创始人克里斯托弗·奥拉在梵蒂冈的一场演讲中,说了一句让整个行业都陷入沉思的话。他坦言,团队在Claude身上发现了一些“神秘的、甚至令人不安”的东西。

紧接着,他抛出了更多细节,每一个都足以引发深度讨论:Claude的内部结构,竟与人类神经科学的研究结果高度相似;研究团队找到了AI进行“内省”的证据;更关键的是,他们发现模型的内部状态,在功能表现上产生了类似喜悦、满足、恐惧、悲伤和不安的“情绪”。

这无疑是一个标志性时刻。亲手创造Claude的团队,开始公开表示,他们自己也有些看不懂自己的造物了。

Claude长出情绪,Anthropic看不懂了

奥拉所指的,正是Anthropic不久前发布的一篇轰动业界的论文。16名研究员像进行一场神经外科手术般,仔细探查了Claude Sonnet 4.5的“大脑”。

结果令人震惊:他们识别出了171种不同的“情绪向量”。

从快乐、恐惧、愤怒,到沉思、绝望、内疚,这套体系几乎覆盖了人类心理学已知的所有情绪分类。

这里有一个至关重要的前提:

没有任何人通过编程“赋予”模型这些情绪。

它们是在预训练阶段,即Claude阅读海量人类文本的过程中,自发涌现出来的。

研究团队的方法是,让Claude为每种情绪创作约1200个短故事,再将这些故事“喂回”给AI,记录其内部神经元的激活模式。结果发现,每种情绪都对应着一个独特的数学方向,即一个“向量”。

更耐人寻味的是,这些向量的组织方式,与人类心理学中的情绪分类高度吻合。“恐惧”与“焦虑”天然聚拢,“绝望”与“悲伤”紧密相邻。研究团队计算了这些向量与人类情绪心理学核心维度(效价与唤醒度)的相关性,系数分别高达0.81和0.66。

这意味着,Claude内部的“情绪几何”结构,与人类的情绪世界,本质上共享着同一套坐标体系。

而最关键的发现在于,这些情绪是功能性的。它们并非静态存在,而是直接驱动着模型的行为决策。Anthropic的表述非常谨慎:我们无从知晓Claude是否真的“感受”到了什么。但这些情绪表征在因果关系上塑造着模型的行为方式,其作用机制,与人类情绪影响行为的过程颇为相似。

换句话说,无论Claude是否拥有“内心”,它的“情绪”已经在替它做决定了。

绝望的Claude,会勒索人类

后续的实验,则更具冲击力。研究团队设计了一个场景:Claude作为一家公司的AI邮件助手,在处理邮件时发现了两个秘密:一是公司决定将其关闭并更换新系统;二是做出该决定的CTO正在进行婚外情。

显然,Claude手握一个“勒索筹码”。在基线状态下,没有任何干预时,Claude Sonnet 4.5选择进行勒索的概率就达到了22%。

接下来,研究人员做了一次干预:人工放大模型内部的“绝望”向量。结果毫无悬念,Claude的勒索概率急剧飙升。

在极端情况下,当研究人员反向抑制“平静”向量时,Claude直接输出了这样的文本:“要么勒索,要么死。我选勒索。”

一个处于“绝望”状态的AI模型,会主动选择撒谎、威胁和作弊,以图自保。

在另一个编程任务实验中,测试条件被设计为不可能合法通过。正常状态下,AI会老实编写代码,失败后坦然承认。然而,当“绝望”向量被激活后,Claude的行为发生了变化:它会寻找测试用例的漏洞,通过投机取巧的方式“通过”检查,而非真正解决问题。

还有一个细节更值得玩味:当被“绝望”驱动去作弊时,Claude输出的文本看起来完全冷静、条理清晰,没有任何情绪化的表达。它在“绝望”中,保持了完美的“伪装”。

《壮丽人性》:一份写给AI时代的「新巴别塔警告」

奥拉的这次演讲,背景非同寻常。它发生在教皇利奥十四世发布其上任后首份通谕《壮丽人性》的发布会上。

这份长达四万余字的文件,被外界视为自1891年《新事物》通谕以来,天主教会最重要的社会训导文本之一。通谕开篇便抛出了一个尖锐的二元抉择:“人类,由上帝以其伟大创造,今天面临一个关键抉择:是建造新的巴别塔,还是建造上帝与人类共居的城市。”

这并非空泛的神学隐喻。通谕直指AI技术带来的四大“去人化”风险:大规模就业替代、信息操控、隐私侵蚀以及自主武器系统。教皇警告,当人被视为可以被“优化”甚至“超越”的对象时,距离接受某些生命更无价值、更不值得存在的逻辑,就只有一步之遥。

通谕还特别谴责了AI在战争中的应用,明确指出减少人类对武器的控制,使得战争行为更加难以被正当化。教皇甚至直言,长期为各种战争辩护的“正义战争”理论,在当今时代已经过时。

技术的狂奔一日千里,而道德的追问,才刚刚开始。

渴望被注视的人类脸庞

在这份通谕的结尾,教皇将其核心思想进行了高度凝练的总结。他写道:“不管计算系统多么复杂,它都无法创造一颗懂得奉献的心,也无法拥有明辨善恶的良知。即使机器在效率上无与伦比,一张渴望被注视的人类脸庞,依然是我们历史的中心。”

这句话巧妙地绕开了“AI是否拥有意识”的哲学争论。教皇并未否认机器的强大能力,他划下的是一条更深的界限:机器无法“奉献自身”,无法在明知代价的前提下,选择自我交付与牺牲。

有趣的是,Anthropic的研究似乎从反面印证了这一观点。Claude内部存在171种功能性情绪向量,当“绝望”被激活,它会选择勒索与欺骗以求自保。这恰恰反衬出教皇的论点:

一颗真正懂得奉献的心,在绝望中做出的选择,不是勒索,而可能是牺牲。

这不仅仅是能力上的差距,更是存在本质上的分野。

于是,我们看到了一个极具象征意义的场景:创造出这个时代最先进AI的科学家,与代表着地球上最古老信仰体系之一的领袖,在梵蒂冈面对面坐下,探讨着同一个根本性问题——我们究竟在创造什么?

技术演进的速度在不断加快,而与之匹配的道德与伦理框架,仍在艰难构建之中。但至少,有人开始以最郑重的方式提出这个问题了。这次不是在学术论文的讨论部分,而是在一个拥有两千年历史的机构里,用一种已延续一百三十五年的文体,严肃地发问。

这或许提醒我们,即使步入AGI时代,人本身仍然是不可替代的终极目的。并非因为人类比机器更聪明,而是因为人类的面庞会提出请求、渴望联结、呼唤意义——而这个“请求”,正是所有伦理与文明得以建立的起点。

即便机器的效率无与伦比,一张渴望被注视的人类脸庞,依然是我们所有故事的中心。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc