您的位置：首页 > > 教程攻略 > ai资讯 >四位AI科学家谈：AI学会自进化后，我们该如何应对？

四位AI科学家谈：AI学会自进化后，我们该如何应对？

来源:互联网 更新时间:2026-06-16 14:49

大概是一周前，正在筹备上市的Anthropic在官方博客上发了一篇文章，标题叫《When AI build itself》。文章一出，AI安全这个话题，就又被卷回了舆论的暴风眼。

Anthropic在文中探讨的是一个名为“AI自进化”的问题，核心判断很直接：

AI已经开始参与到为自己构建更强大模型的工作中，速度快到超出了我们的预期。

说起来，AI自进化倒不是什么新鲜事。从AI技术诞生的第一天起，人们就在琢磨着怎么让它自己迭代自己——就像具身智能领域现在天天在畅想的，用人形机器人去造人形机器人那样。

有意思的是，

AI科学家们一边对自进化能力感到恐惧，一边又在拼命研究、甚至利用它。

举个典型的例子，在Meta裁员风波中被不少关注的田渊栋（原Meta FAIR团队研究总监），今年年初就宣布创业了，公司名字叫Recursive Superintelligence（RSI），目标直指AI自进化。而这家公司，前不久刚完成6.5亿美元融资，估值飙到46.5亿美元（约315亿元），又成了硅谷一个被巨头们追捧的明星团队。

那么，

究竟什么是AI自进化？它会失控吗？人类又该如何跟AI共处？

在今年的智源大会上，这恰好是一个核心议题。我们看到了四位年轻的AI科学家关于这个议题的思考和预言。从他们的视角出发，或许能让我们窥见AI自进化的走向，也能在焦虑中找到一些应对的灵感。

这四位分别是：西湖大学工学院人工智能系特聘研究员林涛、NeoCognition联合创始人谷雨、前腾讯混元Frontier专家研究员王琰、以及伦敦大学学院博士、布里斯托大学助理教授杨梦月。

以下是对他们对话内容的整理，做了不改变原意的总结和梳理：

01 什么是AI自进化？

问：现在很多AI系统都会反思，也会改Prompt，听起来都有点自我改进的味道。要严格定义的话，什么才是AI的自进化？

林涛：

我觉得自进化应该是多层次的。它可以有外脑的进化，也有内脑的进化。最关键的是，AI要能自己认识到自己的局限，并同时去进化外脑和内脑，或者在进化外脑的时候，把更多的外部能力内化，进一步实现内脑的进化。

谷雨：

在我看来，RSI（递归自我进化）最重要的就是两个维度：Proactiveness（主动性）和Learning（学习）。Learning解决的是如何让AI拥有可靠的持续学习和在线学习算法；而自进化则是要Agent知道自己要往什么方向进化。所以得分别解决两个问题：一个是what层面的元认知——你得知道自己缺什么、需要什么、该怎么选；另一个是how层面，也就是学习算法具体怎么实现。

王琰：

至少在今天这个时间点来看，和传统的SFT、RL相比，如果系统能更少地依赖人类，其实就已经算实现自进化了。

杨梦月：

现在说的RSI，其实是self improvement再往前推一步。它不只是能力变强了，还得看“进化能力”本身是不是也能变得更强。这里有个关键问题，就是Recursive公司联创团队中Jeff Clune和Tim Rocktaschel的研究方向——Open-endedness。在一个开放世界里，Agent有没有自我提问能力？能不能发现自己的知识边界、系统边界、记忆边界在哪？它要能突破自己的边界去提问。要摆脱人类进行自我进化，包括达到进化能力的进化，它的提问能力很重要。

问：在今天这个节点，AI最有价值、最可能先成熟的自进化部分是哪里？

王琰：

不知道大家有没有感觉，2025年1月之后模型的迭代明显加速了。其实就是因为基模领域那些最熟悉AI能力上限的人，已经不写代码了——这已经是基模训练中在发生的事实。Claude、GPT，还有国内这些基模，迭代速度都在加快。不能说这完全是自进化，但确实已经有AI在迭代AI了。至于哪个领域最先成熟，我最直接的感触就是基模训练本身——虽然旁边有人给它指定方向，但本质上已经在自进化。

问：如果不改变模型参数，只去进化其他组成部分，基模能实现足够强的能力跃迁吗？

王琰：

当然可以。哪怕只是改一改Prompt，效果可能就不一样了。比如有时候我交给实习生一个工作，他们做得不好，我去看他们的Prompt，发现是写得太差了。我只是重新写了个更清晰的Prompt，把规则写得清楚一点，效果就上来了。既然我能做到，比我更高维度的硅基生物当然也能做得更好，哪怕不改变模型参数。

问：林老师怎么看？

林涛：

这应该是个迭代过程。首先得有更好的harness（驾驭工程），也就是外脑，把当前模型的上限发挥出来；随着越来越多人有自己的harness，这些程序又可能被用来训练出更强的基模；在更强的基模基础上，我们再发展出更强的harness、更好的外脑——这也是一个迭代的过程。

问：那你认为现在综合资源做哪一块最容易成熟？

林涛：

做harness最容易。

谷雨：

我更倾向于用统一视角来看harness和skill。从统一视角来看，它们都是长期记忆，只是角度不同。harness是元认知层面的长期记忆，skill更多是工作流或过程知识的长期记忆，模型参数更多可能是直觉层面的长期记忆。如果问要先做哪个，从学术研究角度很难说，它们都很重要，相辅相成、互相促进。但从公司角度来看，更容易起步的还是harness——有了harness就能有产品，有产品就有用户，有用户就有数据和闭环。

杨梦月：

我自己更关注记忆层面的进化，因为我的研究方向是理解规则和因果。现在大家能感觉到，模型能力越来越强，有点在覆盖harness的能力，慢慢吞噬harness、达到上限。所以未来的发展很难说，可能基模越来越强，harness方向的提升会变得微乎其微。

02 AI先在哪个环节自进化？

问：AI自进化什么时候发生最恰当？

谷雨：

关于harness我先补充一句——它可能被模型进步蚕食，但有些模块肯定还是得保留。比如保证模型安全性和可验证性的模块，这是概率模型永远取代不了的。至于自进化发生的时机，我觉得可以理解为Learning加长程记忆。对人来说，每一次推理、每一次解决问题都是学习机会——我们不会搜集了一堆问题后再去做静态学习。如果相信人的学习是一种高效方式，那智能体也一样。你肯定希望Agent不浪费每一次推理机会，因为每一次推理都有机会获得学习信号。这和强化学习的宏观哲学一致，但现在主流深度学习还停在模型参数更新阶段，很难做到在线学习的设置。所以要真正实现这个，需要一些新学习算法，比如基于非参数的更新。

问：这里是不是有系统1和系统2的区别？

谷雨：

确实。如果把非参数的东西看作系统2，它更显式、更慢，但也保留了转化到系统1的可能性——包括基于学到的非参数规则产生更多数据，就像林老师说的外脑到内脑的转化。

王琰：

我也做过很多TTT（测试时训练）的工作。我认为，模型在预测下一个token的时候，重要的是学到每一个token的更新梯度。未来我们一定能找到一种训练算法，让训练算法本身能够让模型学会每个token的梯度如何更新——这才是真正端到端的思想。

林涛：

从模型训练角度来看，它可以先从harness影响到后训练，通过后训练提升模型性能后得到更强模型，更强模型又可以反馈到前训练阶段，提升基模能力，形成闭环。所以它时时刻刻都在进化，只是以不同尺度、不同方式在进化。

杨梦月：

我也认为自进化是时时刻刻都在发生的，并且延伸到所有环节中。比如如何产生一条轨迹。如果让GPT为某个问题生成答案，它其实是在推理，推理过程就是创造和组合的过程，而这个过程就是在向环境、人类提问。所以前向设计本身就有机制设计的进化。此外，获得一个奖励信号后——比如人类给模型的反馈——如何更新轨迹，这也会让整个流程逐步提升。

问：设计自己的Benchmark，是不是也算AI自进化的一个标志？

杨梦月：

我们现在能不能有一个增长式的Benchmark？甚至是一个增长式、自我进化式的世界模型？现在很多Benchmark都是固定的，给一个固定数据库测试。这样无论怎么测，总能找到模型在这个固定数据库上做得很好。要通往AGI，我们确实需要动态评测——去适应它当前的能力，做逐步增长式的评测。

王琰：

我们以前刚做生成的时候，根本没有Benchmark，全是人测。我不确定这件事能不能用Benchmark来评测——静态的肯定不行。动态的能不能行也不确定，因为两个都是自进化的Agent，最后会不会又回到人测的老路上来？但顺着这个观点来看，大概率它根本就不能用Benchmark来评测。

问：自动化评测方法会很难设计？

王琰：

对。现在很多榜上的模型训练得挺好，一上线，在Agent workflow里就会出现卡死这类问题，必须用线上数据飞轮再训一下才能好。AI自进化之后再怎么评测，根本没法确定。静态Benchmark已经有很大的局限性了，开始自进化后，还能不能评测都是个问题。

谷雨：

我很同意王老师的观点。当一个系统足够复杂后，很难用简单指标量化——对人也是一样，你很难用一个简单指标评价一个人是好是坏。而且，一旦能被简单指标量化，就很容易被hack。但另一方面，我觉得当前AI还没复杂到那个程度，Benchmark还能带领我们前进。这里面有两个问题：第一，AI是否应该自己不断发现新Benchmark，还是由人来设计？我认为还是需要由人来设计，因为Benchmark代表了目标，这个目标还是要人来给。第二，人给了Benchmark之后，怎么评测？对自进化来说，这和过去很不一样。过去的Benchmark有静态训练集和测试集，看最终准确率；但对自进化的AI来说，更重要的是趋势。这又回到我之前说的——大模型的学习等于推理加长程记忆。每次推理都是学习机会，所以如果做Benchmark，应该有一个二维曲线，横轴是做了多少任务，纵轴是性能表现，理想状态下应该不断向上提升。

自进化评测背后更大的哲学是：智能到底是什么？我很喜欢一位AI研究员说过的一句话——智能并不在于你会做多少事，而在于你是怎么会做这些事的。之前的评测主要看大模型最终掌握了什么技能，而自进化研究的是大模型如何掌握这些技能，看的是学习过程。

如何学习，才是自进化最核心的部分。

林涛：

关于智能，我之前也被一个说法触动到：真正的智能，应该是我们关心的那些能力在单位时间内的增长速度。这也在一定程度上反映了智能到底是什么。基于这个，我会觉得模型和Benchmark应该协同进化。目前还是由人来定义Benchmark——看是否已经到瓶颈了，该不该设计更新的、更强的，然后基于新Benchmark找当前模型的漏洞，再推动训练。未来一个重要的点是，可以用一些半自动化的方式去发现有意义的Benchmark，至少先把后训练的环节跑通，让半自动发现的Benchmark来提升模型的初步能力。

03 AI会不会失控？

问：在AI自进化过程中，怎么判断AI是否学偏了，甚至到了无法控制的程度？

王琰：

说个悲观点的——几年之后，人类可能只能在没网络的地方生存了。现在AI进化的速度太恐怖了，AI失控不是什么遥远的事。安全不在于技术，而在于人性能不能克制住。

林涛：

这也是为什么我刚才说要半自动化Benchmark的原因。一定要在有人参与的半自动化的Benchmark下实现AI自进化，至少能给它一些约束，不让它突破我们想定义的标准。

杨梦月：

我们说的AI可信度、安全性、可解释性，本质上都需要其内部是可见的。比如大模型做个决策，它到底为什么要这么做；做个预测，为什么这么预测。所以我们正在做的一件事是，希望所有大模型组件之间能有一套规则，直接显示在人类面前，告诉你它为什么要做这个决策。白盒这件事以后会很重要——想要控制AI，首先得知道它里面是怎么做决策的。

问：要在RSI中实现对安全的控制，从因果角度来看还需要做哪些？

杨梦月：

传统的因果论是在概率统计学上进行的，它本身形成的因果发现、因果推断就不适用于大模型时代。所以我们现在算是返璞归真了，回到因果本身定义上去。比如三层因果结构阶梯——这些基本概念在RSI系统、基模或harness中，应该变成什么样的形式？我们该用什么样的约束条件去学到它？这是现在努力的方向，但不容易。为什么现在大家说世界模型、物理理解很难做？因为此前的物理信息机器学习、因果机器学习这些方法，天然不适用大模型的纵向扩展方案。所以我们需要回到这些方法的定义上，看看有哪些工具能解决问题。

谷雨：

首先是AI可控性、能不能受人控制——这个我没什么想法。马云也说过，对他控制不了的事，他不愿多想。如果真来了，我也没法改变。所以我更想聊聊短期内更具体的：AI怎么变得更可控。除了刚才杨老师说的可解释性、因果关系发掘之外，还有两个维度：可靠性和可验证性。可靠性就是，模型或智能体做一件事，这次做对了，下次还得做对，不能是随机的；可验证性就是，做错事时它得知道自己做错了，而不是它交付的任务连对错都不知道。我觉得这是短期内智能体落地很现实的两个指标。

问：在自进化过程中，AI的进化和人的进化怎么协同？

林涛：

就我个人而言，我已经把大部分工作流用AI替代了。而且随着AI越来越强，我也会用AI替代更多原来的工作流。这确实提升了效率，也有时间让AI帮我思考更多东西——这在一定程度上算是我基于AI的某种进化。因为我是训模型的，在基模训练过程中，也一定程度上提升了AI的进化，但我觉得还不太多。未来可以进一步探索，人怎么更高效地进化，也让AI进化得更好。

杨梦月：

作为教职人员，我明显能感觉到学生用AI工具越来越多了。但现在一个很重要的问题是——你究竟能不能驾驭这些AI工具？因为AI可以进行大量的内容输出，有时你太相信它，本身对科研的信念和感知会绕到一个很奇怪的层面。基础打得很扎实的学生，利用这些工具可以很快出一些高质量工作；基础没那么扎实的学生，无法驾驭这些工具，反而会被误导。我们跟DeepMind一些研究员交流过，他们内部鼓励用AI工具，但现在他们说，谁能把这些工具用好，很取决于人对这些工具的了解程度到底有多少。现在很重要的是，在面对能力越来越强的AI工具时，还是不要放弃基本观念、基础知识的学习，也要知道一些事情在哲学层面是怎么推导过来的——这样AI给你错误信息时，你才能辨识出来。

问：AI会倒逼人进化吗？

杨梦月：

这是肯定的。我明显能感受到，AI正在让人形成一种分流——越是基础打得扎实的人，通过AI越能达到一个顶部的状态。如果你只是通过AI工具来完成一个任务，它最后出来的东西可能成了外表镀金、内核不太行的状态，但很多人还没意识到。

王琰：

未来有杨老师说的这种意识的人，会为自己的孩子创造一个无AI的环境，让孩子在里面成长。没这种意识的人，很可能完成作业就是他们的目标，最方便的方法就是用AI。我有这个意识，是因为我渐渐发现我的实习生做事时，初期很快完成了，但后面有很多问题他们发现不了。等我发现问他们，他们会说“王老师你等十分钟我告诉你为什么”（继续找AI给答案）。实际上，他们根本不知道整个项目在做什么，没有全局思维，跟不上我的节奏。如果没有AI，他们必须从零开始学习知识——比如我们基于deepseek研究，他们首先得把deepseek的论文看完。现在他们直接跟Claude说：你把论文看完，在LighteningIndex上实现一个MemoryIndex。既然他们这样完成工作，就导致我原来因为体力因素没法完成的工作，现在可以直接通过这种方式完成，不再需要这些实习生。本质原因：一是他们认知提升速度变慢了，二是这样的AI助手对我这种管理者反而效率更高。

谷雨：

我和王老师很有共鸣。最近我们公司内部很喜欢段永平老师的一句话——慢就是快。你用vibe coding，冲得很快，但冲完之后理解没跟上，可能导致软件越来越失控，反而要花更多时间整理。对于这个问题，可以有两个视角：第一，如果把AI当工具看，人和工具向来是共同演进的关系——工具决定了人掌握什么能力。可能几千年前人需要的能力，现在看已经不重要的，现代人能做的都是由当前工具决定的。从工具角度看，AI与人一定是共生的关系，共同演进。第二，如果AI不是工具，而是像人一样平等的物种，甚至凌驾于人之上，那未来就不是共同进步了。可能未来人只要躺平就好，悲观点说，人要给AI打工。

04 RSI是新范式吗？

问：AI自进化是现有技术路径的延续，还是新的技术范式？

林涛：

目前来看，AI很自然地走到了自进化这一步。只是现在Agent成熟了，让这件事变得更容易，但这不代表有核心差异。

王琰：

我觉得它就是下一阶段。现在我们每个人用的模型都是共享的参数，但最终每个人一定会有自己独有的参数区。现在这件事不难做，只是infra不支持，而且太耗成本，但最终不会成为大障碍。未来可能每个人有个LoRA，怎么加载自己的LoRA，就会有新的付费模式——多付点钱加载的LoRA就大一些，免费用户只能用基模。如果这样的infra成立，每个人自己的LoRA执行个人任务，只要把前向推理的Delta规则做好，就是一个很好的自进化学习范式了。相当于基模已经建好，RL只是传统学习和监督学习之间的中间阶段，我们只需要给任务、奖励和环境。任务本身就是奖励机制——比如模型执行任务出了结果，我说“干得好”或“干得太蠢了”，这就自然成了奖励机制。这是不远的将来会发生的变化。

谷雨：

关于这个问题，我觉得是量变引起质变。它可能既是现有技术范式的延续，又是新的机会。现在有一个共识是，具体量变的维度是AI所做任务的长程程度——随着AI做的任务越来越长程，就越接近一种新范式。最开始AI只能做单轮对话，后来发展到多轮、长文推理、Deep Research，最终可能会出现终身学习级别的。到那时候，天然就需要AI在做任务时不断发现不足、不断提升自己，自然就成了RSI或self improving。

杨梦月：

self improving其实不是新概念，包括几年前LLM刚出来时，我们已经在做类似的工作，现在也被归类到了self improving的范畴。我也同意现在是量变引起质变的时刻，但我的评价标准不是长程任务——因为长程任务更多是规划层面的东西，还要有精致的操作。Agent是个很宽泛的概念，比如具身Agent，除了长程任务规划，还要完成每个动作的能力。它是综合的东西——是否能适应新系统，每个精致的操作能否顺利完成，每个过程都可以通过self improving来完成。但self improving只是一种技术手段，大家最终的目的都是通往AGI。

问：未来5-10年，RSI技术成熟、AI自进化可控可部署，它最先改变的会是什么？

林涛：

我觉得会改变一切。包括你可能一出生就会有一个随身AI设备，帮你一起理解这个世界，并慢慢构建出属于你的数字人，参与到生活的方方面面。这基本上是5年内可以畅想的事实。

谷雨：

我也同意改变是方方面面的，不会是某一个具体场景。我希望看到的改变是——未来5-10年，如果Agent能取代我就挺好的，因为创业挺累的，有点像躺平了。

王琰：

更有可能发生的是资本家用AI取代了更多人。我感觉这是一个自然而然会发生的事。现在没被取代，是因为人类的工资还没有token贵。但我希望这一切不要发生。我希望AI可以让我们从一周五天工作制变成三天，一天八小时变成四小时，生产出的物品变得更便宜。

杨梦月：

从一个哲学视角看，人类存活在这个世界上需要有价值。我每天醒来刷小红书或推特，又看到新东西，发现现在做的事又要被AI取代——我其实会担心，这种取代让我做的研究有什么意义？所以我觉得AI还得给人留一定的思考空间，让人类去思考自己对于世界的价值究竟是什么。我希望它进步得慢一点。

四位AI科学家谈：AI学会自进化后，我们该如何应对？

AI已经开始参与到为自己构建更强大模型的工作中，速度快到超出了我们的预期。

AI科学家们一边对自进化能力感到恐惧，一边又在拼命研究、甚至利用它。

究竟什么是AI自进化？它会失控吗？人类又该如何跟AI共处？

01 什么是AI自进化？

01 什么是AI自进化？

问：现在很多AI系统都会反思，也会改Prompt，听起来都有点自我改进的味道。要严格定义的话，什么才是AI的自进化？

林涛：

谷雨：

王琰：

杨梦月：

问：在今天这个节点，AI最有价值、最可能先成熟的自进化部分是哪里？

王琰：

问：如果不改变模型参数，只去进化其他组成部分，基模能实现足够强的能力跃迁吗？

王琰：

问：林老师怎么看？

林涛：

问：那你认为现在综合资源做哪一块最容易成熟？

林涛：

谷雨：

杨梦月：

02 AI先在哪个环节自进化？

02 AI先在哪个环节自进化？

问：AI自进化什么时候发生最恰当？

谷雨：

问：这里是不是有系统1和系统2的区别？

谷雨：

王琰：

林涛：

杨梦月：

问：设计自己的Benchmark，是不是也算AI自进化的一个标志？

杨梦月：

王琰：

问：自动化评测方法会很难设计？

王琰：

谷雨：

如何学习，才是自进化最核心的部分。

林涛：

03 AI会不会失控？

03 AI会不会失控？

问：在AI自进化过程中，怎么判断AI是否学偏了，甚至到了无法控制的程度？

王琰：

林涛：

杨梦月：

问：要在RSI中实现对安全的控制，从因果角度来看还需要做哪些？

杨梦月：

谷雨：

问：在自进化过程中，AI的进化和人的进化怎么协同？

林涛：

杨梦月：

问：AI会倒逼人进化吗？

杨梦月：

王琰：

谷雨：

04 RSI是新范式吗？

04 RSI是新范式吗？

问：AI自进化是现有技术路径的延续，还是新的技术范式？

林涛：

王琰：

谷雨：

杨梦月：

问：未来5-10年，RSI技术成熟、AI自进化可控可部署，它最先改变的会是什么？

林涛：

谷雨：

王琰：

杨梦月：

热门资讯

热门手游

相关攻略

热门专题