来源:互联网 更新时间:2026-06-09 14:54
“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为最新一篇技术博客的开篇。
在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击——从ChatGPT开始,机器拥有了远超人类的表达、编程和推理能力。但数字奇迹的背后,往往藏着一个容易被忽视的盲区:
生成式AI已经成为全球必不可少的工具,但行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。李飞飞这篇博客一出,不少人觉得她在试图重新抢回定义权。其实恰恰相反,她真正想做的,是向人们发出一次宣言:
机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。
必须承认,在AI的词典里,“世界模型”已经沦为一个万能代词——任何涉及生成图像和模拟环境的项目似乎都能与它挂钩。这种模糊性,源自人们对“世界”定义的多维需求。一项技术刚起步时,自然不会有一条统一法条把它束缚在明确的界限内。这种混乱在历史上并不罕见:古希腊哲学家争论世界的本质是水、火还是不可分割的原子时,其实就是在为自己的推理找基石。
AI领域现在遇到同样的问题:
这个闭环听起来很简单,每一环的功能都易于理解。但仔细拆解,内部有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件——它们既是技术上的分类,也是AI通往具身智能的三大支柱。
渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。
看似美好的现实,李飞飞却指出是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的只是观众“看到”的样子,而不是世界“存在”的样子。
模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。
从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都难以想象。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的:实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪——这就是我们常说的“莫拉维克悖论”。
规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。
在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞给出了一个极具洞察力的判断:
在模拟器这一领域做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这不再是视觉上的demo演示,而是生产力的核心基础设施。这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。
从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试——这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。
但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。首先就是具身智能数据问题:互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。其次,生成式AI的应用永远伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的——比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。
纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:
未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性:渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。
最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?在李飞飞看来,人类过去几十年的AI研究,都在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。
世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。
尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
抖音最火沙雕男生网名(精选100个)
蒙古上单是什么梗
帅到极致的网名女生霸气(精选100个)
韦一敏是什么梗
作家助手如何上传自制封面 作家助手如何设置小说的封面
免费看电影的软件推荐
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
有寓意的易经网名男生(精选100个)
韩漫小少爷网名大全女生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc