来源:互联网 更新时间:2026-06-02 14:48
先说几个核心判断。
从 LLM 的超长文本处理、视频生成模型的以假乱真、Agent 自主规划与执行的日趋成熟,到 VLA、世界模型等开始进入物理世界,AI 正在不断拓宽其能力边界。模型版本的迭代周期越缩越短,行业新闻与技术讨论的热度居高不下。在这种一往无前的氛围里,我们好像离 AGI 并不遥远了。
但有一个疑问始终摆在那里:这些待在服务器里的 AI,真的「理解」这个世界吗?或者说,它们展现出的智能,跟生物在真实物理世界里生存所展现出的认知,在本质上到底是不是一回事?
最近,学者 Banafsheh Rafiee 跟强化学习之父 Richard S. Sutton 一起写了篇论文,对当前主流人工智能——包括大语言模型、纯视觉模型乃至传统的符号系统——依赖的那条「被动表征」路线,做了一次系统性的反思和批判。更关键的是,他们把认知科学里的「生成认知」(Enactive Cognition)框架引入了 AI 领域。
这篇研究主张,感知、认知和行动是相互建构、不可分割的整体。它探讨的是,AI 能不能从那种依赖静态数据的被动信息处理系统,逐步走向一个能通过环境互动、具身行动与自我评估来获取经验的智能体。

论文标题:Toward Enactive Artificial Intelligence
论文地址:https://arxiv.org/abs/2605.24238v1
先把话说在前面:现在主流 AI 发展,其实很多还困在一条老路上——表征主义。
在传统人工智能范式里,不管是早期的符号系统,还是今天的深度学习模型,感知通常被理解成一个「先输入、再处理、后行动」的线性过程:系统先接收外部信号,把这些信号加工成内部表征,然后基于这些表征做推理和决策,最后输出动作。
这么一看,智能系统就像一个中央处理器。它需要在内部构建一个尽可能精确的「世界副本」。感知成功不成功,取决于这个内部模型能不能准确还原外部现实。
但 Rafiee 和 Sutton 指出,这个路子本身有根本性的局限。真实世界是开放的、动态的、无限复杂的,任何一个有限的内部模型,都没办法完整捕捉它的全部状态。世界本身并不是一组等着被编码的静态特征,它是一个会随着智能体的行动、上下文和互动历史不断变化的可能性空间。
所以,论文引用了机器人学家 Rodney Brooks 的一句名言:「世界本身就是它最好的模型。」
这句话往深了说,其实是告诉我们要相信环境本身,它每时每刻都在提供最新、最丰富的信息,远比你费力在脑子里存一个副本来得靠谱。智能体不应该试图完全用内部表征替代现实,而应该保持与环境的持续互动,在实时反馈中调整行动、校准预期、形成理解。
「生成认知」来自认知科学里的生成主义(enactivism)。它的核心思想是:认知,不是对一个预先存在的客观世界做内部复制,而是在具身主体与环境的互动中被生成出来的。
这个理念吸收了现象学、格式塔心理学和生态心理学的思想。现象学强调,感知不是在头脑里重建世界,而是主体在生活经验里直接跟世界相遇;吉布森的生态心理学提出了「示能」(affordance)这个概念——环境里的东西是「可抓握」还是「可攀爬」,取决于它跟具体身体能力之间的关系。
换句话说,世界并不是以抽象特征的形式被动呈现给智能体的,而是在智能体能够采取的行动中变得有意义。
把这一套思想引入 AI,Rafiee 和 Sutton 提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性,以及具身性。它们共同指向同一个判断:智能不是对世界的静态表征,而是在环境中行动、反馈和自我维持的过程。
在生成认知框架下,经验不等于数据。真正的经验来自智能体与环境之间持续、实时、相互影响的互动。智能体不是被动接收现成的数据,而是在行动、反馈、失败和修正中不断获得技能。
这也暴露了当前主流机器学习的局限。监督学习依赖人类预先收集和标注的数据,模型学到的只是经验留下的痕迹,而不是自己亲历的经验。相比之下,强化学习更接近生成认知的要求:智能体通过主动探索环境、接收反馈并调整策略,在互动中持续生成新的数据和能力。
也就是说,一个真正自主的系统,不能永远靠人类准备好的静态数据集活着,它必须能通过自身的经验不断扩展能力边界。
生成认知反对把感知和行动拆成两个独立的模块。感知不是行动之前的准备环节,感知本身就是一种行动能力。
人类并不是被动接收画面。我们通过眼球、头部、身体和手部的运动,不断改变输入,然后才判断空间、声音、纹理和物体形态。所以,感知不是等着信息进入大脑,而是通过有目的的行动来揭示环境的结构。
这一点对今天的视频生成模型尤其重要。纯观察系统也许能学会大量视觉规律,比如预测物体运动或者红绿灯变化顺序,但这不代表它真正理解了物理世界。一旦环境出现异常,它们往往缺乏主动干预、试错和纠正的能力。
生成认知强调的正是这个:智能体不仅要预测世界怎么变化,还要能通过行动改变世界,并在反馈中形成理解。
生成认知认为,智能体不是一个简单响应外部刺激的机器,而是一个自我组织、自我维持的系统。环境中的事物之所以有意义,是因为它们关系到智能体自身的目标、需求和持续存在。
这意味着智能体需要有某种内在的成败标准。食物、障碍物、能量之所以重要,不是因为它们天然就重要,而是因为它们会影响智能体能不能继续行动、维持自身状态或者完成目标。
从这个角度来说,现在很多 AI 系统还缺乏真正的自主性。监督学习依赖外部标签,大语言模型主要在模仿人类数据模式,传统规划系统的目标也大多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估,但大多数奖励函数还是由外部设计者指定的,并不是从智能体自身的自我维持过程中自然产生。
所以,距离真正的自主性,还有一段路要走。
生成认知的最后一个关键是具身性。身体并不是智能系统完成推理之后才拿来用的执行工具,恰恰相反,它是感知和理解世界的前提。
身体的形态、传感器的位置、运动能力和行动方式,会直接决定智能体怎么探索环境,也决定世界以什么方式对它呈现意义。同一把椅子,对人类是「可坐的」,对蚂蚁可能是个巨大的障碍物,对机器人则取决于它是不是有相应的高度、关节结构和控制能力。
这就能解释,为什么很多主流 AI 仍然是「离身」的。它们可以处理海量文本、图像和视频,却没有办法通过自身的运动来改变感知输入,也没办法在真实环境中主动探索和适应变化。
即使在机器人领域,很多系统还是把感知、规划和控制拆成独立模块,身体只是执行策略的硬件平台,而不是塑造认知本身的核心条件。
在经验、感知——行动、自主性和具身性这四个维度上,Rafiee 和 Sutton 对当前 AI 范式给出了一个清晰的判断:主流 AI,尤其是大语言模型和纯视觉模型,仍然主要停在被动表征和模式预测的层面上。
它们能生成极其逼真的文本、图像或视频,也能在复杂任务中展现出强大的推理与规划能力,但只要缺乏与环境的持续互动、缺乏基于自身行动后果的评估、缺乏真正具身的探索过程,它们距离「理解世界」就还有关键差距。
相比之下,强化学习跟生成认知之间存在更强的结构共鸣。RL 强调行动、反馈、探索、适应和长期评估,这都让它成为最接近生成认知理念的 AI 分支。
但这种接近不意味着等同。当前强化学习仍然有三重不足:第一,奖励函数大多由外部指定,而不是来自智能体自身的自我维持和组织结构;第二,感知和行动在不少系统里还是被拆分成相对独立的步骤;第三,具身性常常被当成工程约束来考虑,而不是认知形成的基础。
所以,强化学习自己也需要继续演进:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。
更多技术细节请参见原论文。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
《Off Campus》第二季官宣:这对CP还在,但不再是主角
4D采矿者官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
人声接近真人!OpenAI一口气更新三款超强语音AI
短视频软件推荐
抖音最火沙雕男生网名(精选100个)
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
洛克王国世界S2赛季狂欢怪谈介绍
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc