热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >世界模型与世界的距离:数据、技术路线和落地预期

世界模型与世界的距离:数据、技术路线和落地预期

来源:互联网 更新时间:2026-06-16 14:33

过去一年里,“世界模型”这个概念在AI圈子里火得很快。尤其是在投融资两端都炙手可热的具身智能赛道,大家对它的期待值更是拉满了——逻辑其实很直白:如果一个模型能真正理解物理世界,能预测下一秒会发生什么,还能在和人、环境的互动中不断修正自己的行为,那机器人就有可能摆脱“跟着脚本走”的瓶颈,从一个依赖模仿学习和场景数据的执行器,进化成具备规划、试错、甚至持续学习能力的智能体。

世界模型与世界的距离:数据、技术路线和落地预期

但话说回来,目前业界对“世界模型”的边界,其实远没有达成共识。

在第八届“北京智源大会”上,智源研究院院长王仲远对现有的技术路线做了个清晰的分类:第一类是以语言为中心的世界模型,比如VLM、VLA这些;第二类是以像素为中心的世界模型,本质就是视频生成模型,在视觉空间里学视频或图像;第三类是以三维结构为中心的,覆盖3D重建和相关空间模型;第四类则是以视觉表征为中心的,比如JEPA系列模型。

而在后面一场关于世界模型的圆桌讨论上,几位来自机器人、大模型、3D生成和具身智能公司的研究者,给出了更冷静的判断:

世界模型还处在非常早期的阶段,距离真正走进生产环节,路还很长。

参与讨论的嘉宾包括极佳视界联合创始人、首席科学家朱政,蚂蚁灵波科技首席科学家沈宇军,自变量机器人联合创始人兼CTO王昊,腾讯混元3D及世界模型负责人郭春超,以及星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国。圆桌由智源研究院研究员于智薇主持。以下是这场讨论的核心内容整理。

世界模型在真实系统中处于什么阶段?

郭春超首先从互联网和数字内容行业的角度给出了判断:目前来看,世界模型距离严肃的生产系统,还隔着好几道坎。

如果以工业生产或者游戏管线为参照,世界模型目前更多停留在

原型阶段

。它能被用来生成训练数据、快速验证一些设计想法,但要说高度自动化、达到高商业水准的系统,那确实还有不少路要走。

他进一步补充说,世界模型更容易率先落地的场景,需要具备几个共同点:

容错度高、环境可验证、落地链条短

。比如游戏原型验证、交互式娱乐、交互式短视频、交互式影视、营销活动、交互式广告等。这些场景对安全和精确控制的要求不像机器人那么苛刻,因此比物理世界更容易跑通。

朱政则从机器人的落地角度做了对比。他的看法是,

现在VLA或者说相关的机器人模型,在真实落地方面比世界模型要成熟得多。

原因在于,当前机器人更适合落地的场景,主要还是工业场景或泛服务场景。这些场景任务很明确,机器人要做的动作种类有限,

企业可以提前采集大量后训练数据,把模型训练到接近可用、甚至接近100%成功率。

同时,VLA在量化、压缩、部署和蒸馏方面,已经有了相对完整的工程流程,比如能部署在Orin这类计算平台上。

相比之下,世界模型有两个现实的障碍。第一,很多世界模型依赖视频生成基础模型,而性能好的视频生成模型参数量都不小,常见的是5B、10B量级,对端侧部署压力很大。第二,世界模型的主要优势在于跨场景、多任务泛化,更适合家庭这类开放环境,但家庭场景距离成熟商业化还比较远。

因此,朱政判断,

短期内世界模型更可能先在生产环节发挥作用,比如作为数据引擎、训练工具、环境构造工具,而不是大规模部署到真机上做实时推理。

沈宇军则指出,VLA已经在尝试落地了,世界模型这条路也会很快进入投产尝试,但他并不认为这两条路线中的任何一条就是最终答案。

他的判断比较克制:两条路线短期内都能推动商业检验,因为没有商业检验,模型就无法真正迭代;但它们目前能做的动作和任务仍然非常有限。随着智能水平上升,任务成本会逐渐下降,两条路线最终可能会在某个点交汇,并发展出一种更适合物理世界的独特模型。他强调,

未来这个模型到底还叫不叫“世界模型”,其实不重要,重要的是它是否真正适用于物理世界。

王昊不主张把世界模型简单定义为视频生成模型。他认为,世界模型本质上是一种能力——模型内部是否形成了对世界运行方式的内化理解。

从自变量机器人的实践来看,

VLA和世界模型之间并没有清晰的边界

。VLA正在融合更多视觉和时序能力,而视频生成式世界模型也在从“预测下一状态”发展到“多轮预测动作和视频”。两条路线都在向语言、视觉、动作统一建模的方向演进。

他认为,推理慢等问题属于工程问题,并不构成最大的障碍。真正的问题是:世界模型到底能不能在具体任务上超越原有的VLA,尤其是在长程任务上体现出优势。如果世界模型只能做漂亮的Demo,却在长任务和真实任务中不如已有方法,那它的建模方式可能就有问题。

孙振国从控制理论的角度来区分VLA和世界模型。他认为,VLA更像一个开环系统,而世界模型为机器人提供了做闭环决策的可能性。

如果世界模型只是训练辅助工具,让action head的latent具备更多dynamics学习能力,那它只是多了一种训练范式。但世界模型的上限不应该止步于此。类比模型预测控制(MPC),世界模型真正重要的能力,是把未来的dynamics融入控制闭环,让机器人在行动前进行预演,并基于反馈持续修正。

他承认,基于视频生成底座的世界模型推理更重,因为多了预测head或控制回路。但他认为,如果在隐空间(latent space)里做轻量化预演,并发展更轻量的动作生成或动作条件模型,世界模型用于多轮闭环控制是可能的。

世界模型与VLA:替代、并存还是融合?

围绕着世界模型和VLA的关系,嘉宾们普遍不认为世界模型会简单取代VLA。更主流的看法是:二者正在相互吸收,未来可能会融合成一个新的统一架构。

朱政认为,现在不管看国外开源创业公司,还是大厂的研究路线,

都能看到VLA和世界模型互相吸收优点。

VLA正在吸收预测未来状态的能力,不管是显空间预测还是隐空间预测;世界模型也不再只是视频生成,而是在推理时预测动作,在训练时同时预测状态、视频和动作。由于研究这两类模型的人群本身高度重合,未来行业可能很快就不再争论到底是VLA还是世界模型,而是会形成兼具两类结构的模型。

沈宇军认为,

VLA和世界模型目前都不是上限特别高的路线,至少不会是最终的终点。

短期它们都需要投产验证,但长期来看,物理世界可能需要一种不同于现有概念的新模型。他认为,这种模型很可能会在两条路线的交界处出现。到时候它是不是还被称为世界模型,不必过度纠结。

王昊认为,VLA和世界模型本质上是在从不同的方向走向统一。

VLA借助语言能力,但缺少对时间和视频的处理;视频生成式世界模型有时序建模能力,但语言能力比较弱。实际研发中,两条路都会暴露能力短板,因此自然会融合。关键是要实现语言、视觉和动作的对齐。

他认为,世界模型不能仅靠视频生成或状态预测来证明价值,而是要在联合预测中帮助模型形成对世界的内部理解。

孙振国更关心世界模型是否能进入控制闭环。如果只是在训练阶段辅助VLA,那它和VLA的边界并不清晰;如果能像基于模型的控制一样,用于预测未来、评估动作后果、支持多轮控制,那它就真正体现了世界模型的独特价值。

长尾、风险与安全:世界模型能否解决边缘情境?

主持人提出了一个很现实的问题:真实系统往往最需要处理的,恰恰是那些关键、危险、罕见的未来。比如自动驾驶中即将碰撞的情境,机器人交互中打翻杯子或碰倒物品的情况。嘉宾们围绕长尾数据、安全和风险控制展开了讨论。

孙振国认为,

世界模型在解决长尾问题上有潜力。因为VLA训练往往更依赖高质量的成功轨迹,而世界模型学习的是未来预测。

对世界模型来说,成功数据和失败数据都有效,只要它们能反映环境dynamics。

他提到,在自动驾驶领域,把世界模型作为长尾数据生成器已经有不少尝试。因此,长尾问题不一定是世界模型的短板,反而可能是它的优势场景。

朱政从自动驾驶的经验出发指出,自动驾驶相比机器人有先天的数据优势。汽车即使没有自动驾驶功能也能上路,因此可以积累海量的路测数据。在这些数据中,大约有1%是边缘情境。只要有合适的数据挖掘方法,就能从海量数据中找出风险样本,再训练一个专门生成边缘情境的世界模型,把长尾样本的比例从1%扩展到10%甚至更高。

但这个前提在具身智能中并不存在。机器人无法像车辆那样自然积累上亿公里级别的数据,也很难从中挖掘大量控制失败的样本。具身场景只能在实验室、工厂或其他受控条件下,逐步采集失败案例。

沈宇军认为,当前模型能力还没有到真正需要讨论安全的阶段,但安全一定得提前考虑。

他指出,

机器人和自动驾驶不同。

车祸后果严重,但自动驾驶有交通规则,场景相对可枚举;家庭机器人面对的生活场景则过于开放,失败的类型几乎无法穷尽。生活中的小错误,比如打翻水杯、碰倒东西,人类也会犯,只要不造成重大安全事故,容错率反而比自动驾驶高。

沈宇军提出了两个未来的方向:

第一,机器人部署后应该继续学习。

机器人出厂时带着同一个模型,但卖到不同家庭一个月后,应该根据各自的环境变得不同,更适配具体家庭。

第二,可以引入低成本的人类示教。

如果机器人打翻了水杯,人可以用简单的采集设备示范如何收拾桌子,机器人通过一两次示范就能学习新的行为。

王昊同意沈宇军关于开放世界不可穷尽的判断。他认为,试图通过世界模型或数据驱动的方式,覆盖具身场景中所有的边缘情境,并不现实。人类只能在一个小世界中为机器人采集数据,但机器人真实面对的是远比人类预设更复杂的开放世界。

因此,关键不是帮机器人覆盖所有场景,而是赋予机器人更多的能力,尤其是学习能力。他强调:“学习不是训练的一种方式”,训练只是学习的一部分。机器人如果不能在部署后保持学习能力,就不可能从实验室走向开放环境。

他还提到,自变量机器人在真实家庭评测中发现,模型在自有评测环境中任务成功率比较高,但放到提前没有接触过的家庭环境后,成功率会明显下降。这说明,光靠训练数据本身,无法彻底解决开放环境下的泛化问题。

郭春超从机器学习的角度指出,边缘情境本质上是泛化的问题。要解决泛化,当前基于短视频片段和像素空间的学习机制,效率其实很低。

他举例说,模型看到倒水会洒,不能只学习画面,而应该理解“水是液体”“液体会流动”“倾倒液体可能会洒落”。这样换成牛奶、果汁甚至危险的化学液体时,模型才能实现泛化。

光靠采集倒100种液体的视频并不现实,关键是形成语言和概念层面的抽象。

因此,郭春超认为,

越是专业性的边缘情境,越需要以语言为中心的多模态模型发挥作用。

即使团队做的是视觉和多模态,解决泛化问题也离不开以语言为中心的抽象与决策能力。

泛化能力的瓶颈:范式、数据、强化学习还是持续学习?

在讨论中,一个潜在的共识正在浮现:预测能力并不是世界模型的真正分水岭,泛化能力才是。

朱政认为,

当前距离真正可用,最大的差距可能在于行业对强化学习的重视不够。

他认为,过去行业在模仿学习、多模态对齐、语言对齐上做了大量的工作,也有很多开源框架可以借鉴。但在如何权衡仿真强化学习、真机强化学习以及世界模型中的强化学习方面,探索还远远不够。

不管是跨场景、跨物体泛化,还是未来的家庭机器人,朱政认为都必须重视强化学习。机器人不能只模仿已有的轨迹,还需要通过试错和反馈来提升能力。

沈宇军认为,短期内泛化的核心仍然是数据。机器人和人一样,见过才会做,没见过就不会做。

一个人到新家庭当保姆,没用过某些家电也得问人,不能要求机器人天然zero-shot做得比人还好。

但他强调,

数据问题不仅是数量,更是质量。数据的分布、标注方式、组织方式都非常重要。

数据量堆到一定阶段后,泛化能力的提升就不再主要来自更多数据,而是来自持续学习和快速学习的能力。

他认为,未来的机器人应该能通过少量样本,甚至一次示范,就快速学会新任务。凌波的目标也不是追求完美的zero-shot,而是在后训练过程中,让所需的样本越少越好。

孙振国认为,泛化本身不应该被视为终极目标。人类也不是天生会做所有事情,而是具备基础的学习能力,并且能以较低的成本实现自我提升。

他更关注模型是否能拥有foundation model级别的基础能力,并在新场景中快速自我进化。他认为强化学习、持续学习、终身学习都是值得探索的路径,而世界模型天然就具备某种自我进化的潜力。

他的判断是,未来行业可能不再重点讨论“泛化”,而是讨论模型如何在目标场景中快速达到所需的能力状态。

哪些世界模型能力已经走出Demo?

朱政认为,目前已经有一些多任务的尝试。在他的理解中,VLA更适合单任务,而世界模型更适合多任务。但他不认为世界模型已经大规模进入生产,只是看到一些早期能力正在浮现。

沈宇军则认为,如果讨论物理世界,他暂时没有看到任何世界模型的能力真正进入了可投产的阶段。数字世界可能进展更快,尤其是游戏方向,可能是最先被改变的场景。

王昊提出了一个重要的区分。如果世界模型被定义为一个先显式生成视频或状态,再用它引导动作生成的两阶段系统,那么目前还没有真正落地。因为视频或状态预测能力本身还不够强,后续的动作生成会被卡住。

但如果世界模型被理解为一种隐式表征,即训练时利用视频建模能力引导动作生成,推理时不一定显式生成视频,那其实已经有相当多的任务在做了。他认为,这类能力很难说完全来自世界模型、语言还是视觉,而是多模态的联合能力。

在开放的家庭任务中,他观察到了一些泛化增强的表现。比如同样是擦桌子、整理桌面,不同家庭中的背景、光照、物体都不同,隐式的世界建模能帮助模型更好地适应变化。

他还指出,世界模型如果要解决长程任务,不能只靠短视频预测。

视频预测不需要很长,因为长预测误差会积累,也很耗费时间。

更合理的方式是结合语言,把短期的世界预测和长期的任务规划结合起来。

郭春超认为,

满足高容错、环境可验证、短链条这几个条件的应用会更快落地。

比如游戏原型验证,已经可以用模型快速生成游戏场景原型,帮助团队判断是否符合需求。

未来,交互式娱乐、交互式短视频、交互式影视、互动营销和互动广告也可能较快落地。这些场景不是完全严肃的线上生产系统,但已经具备一定的可用性,并且会随着模型质量的提升逐步扩大。

孙振国认为,如果追求zero-shot到所有场景,世界模型离落地还很远。但如果是在结构化场景或单一场景内做结构性的泛化,已经能看到商业化的可能。

他举例提到了心脏超声机器人项目,基本可以对成年男性进行较精确的心脏超声扫描。这类场景任务边界更清楚,因此比通用机器人更接近落地。

五年后,今天哪些观点可能被证明是错的?

孙振国认为,今年以来主流的现代世界模型范式大多基于视频生成底座,尤其是语言条件世界模型。但他认为这种范式的瓶颈很明显。

相比之下,他更相信动作条件世界模型,也就是以动作为条件来预测下一个状态。对于机器人而言,动作是改变世界状态的关键变量,仅靠语言条件生成未来,并不足够。

郭春超也认为,如果只是基于当前的视频生成模型做后训练,再拿来当世界模型用,可能并不合适。他强调,未来也许会有新的视频生成范式或多模态融合范式,但就现阶段而言,基于密集视角或10秒、15秒短视频片段的学习方式,距离真正的世界智能还很远。

王昊认为,五年后回头看,试图用互联网数据或纯第一人称视角数据来训练具身世界模型,可能会被证明是错的。

他的理由是,具身智能的核心在于交互。比如伸手拿水瓶,大部分时间只是手在靠近水瓶,真正重要的是接触前后那一瞬间的状态突变。状态平滑变化容易预测,但接触、受力、状态切换这些交互过程,很难仅从互联网观察数据中学到。

因此,纯观察数据无法充分降低具身交互中的关键信息不确定性。真正的世界模型,需要理解物理交互导致的状态改变。

沈宇军认为,

最大的错误,可能是把世界模型仅仅看作数据生产工具。

他从生成模型的经验出发,提出了一个悖论:如果生成模型强到可以生成足够多、足够好的数据来训练另一个模型,那它自身大概率已经具备了蒸馏出目标能力的潜力;如果它不够强,那它生成的数据也未必足够好。这个问题就像一个莫比乌斯环,长期来看,很难真正证明它有效。

因此,

他不太相信“用生成模型生成大量数据,再训练另一个强模型”是世界模型的最终路线。

一个足够强的模型,不应该只是另一个模型的数据供应方。

朱政则认为,

五年后可能被证伪的,是当前某些“数据大跃进”式的想法。

有人提出年底采集1000万小时数据,甚至未来采集1亿小时数据。但他认为,如果不提高数据利用效率,这在经济上是不可接受的。

他估算,如果每年训练几十万小时数据,就可能需要花费数亿元级别的数据采集和GPU成本。如果数据量扩大10倍、100倍甚至1000倍,成本将达到不可持续的水平。

因此,他认为未来的强世界模型,更可能是建立在几百万小时的高质量数据上,而不是几亿小时的粗放数据上。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc