您的位置：首页 > > 教程攻略 > ai资讯 >世界模型与世界的距离：数据、技术路线和落地预期

世界模型与世界的距离：数据、技术路线和落地预期

来源:互联网 更新时间:2026-06-16 14:33

过去一年里，“世界模型”这个概念在AI圈子里火得很快。尤其是在投融资两端都炙手可热的具身智能赛道，大家对它的期待值更是拉满了——逻辑其实很直白：如果一个模型能真正理解物理世界，能预测下一秒会发生什么，还能在和人、环境的互动中不断修正自己的行为，那机器人就有可能摆脱“跟着脚本走”的瓶颈，从一个依赖模仿学习和场景数据的执行器，进化成具备规划、试错、甚至持续学习能力的智能体。

但话说回来，目前业界对“世界模型”的边界，其实远没有达成共识。

在第八届“北京智源大会”上，智源研究院院长王仲远对现有的技术路线做了个清晰的分类：第一类是以语言为中心的世界模型，比如VLM、VLA这些；第二类是以像素为中心的世界模型，本质就是视频生成模型，在视觉空间里学视频或图像；第三类是以三维结构为中心的，覆盖3D重建和相关空间模型；第四类则是以视觉表征为中心的，比如JEPA系列模型。

而在后面一场关于世界模型的圆桌讨论上，几位来自机器人、大模型、3D生成和具身智能公司的研究者，给出了更冷静的判断：

世界模型还处在非常早期的阶段，距离真正走进生产环节，路还很长。

参与讨论的嘉宾包括极佳视界联合创始人、首席科学家朱政，蚂蚁灵波科技首席科学家沈宇军，自变量机器人联合创始人兼CTO王昊，腾讯混元3D及世界模型负责人郭春超，以及星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国。圆桌由智源研究院研究员于智薇主持。以下是这场讨论的核心内容整理。

世界模型在真实系统中处于什么阶段？

郭春超首先从互联网和数字内容行业的角度给出了判断：目前来看，世界模型距离严肃的生产系统，还隔着好几道坎。

如果以工业生产或者游戏管线为参照，世界模型目前更多停留在

原型阶段

。它能被用来生成训练数据、快速验证一些设计想法，但要说高度自动化、达到高商业水准的系统，那确实还有不少路要走。

他进一步补充说，世界模型更容易率先落地的场景，需要具备几个共同点：

容错度高、环境可验证、落地链条短

。比如游戏原型验证、交互式娱乐、交互式短视频、交互式影视、营销活动、交互式广告等。这些场景对安全和精确控制的要求不像机器人那么苛刻，因此比物理世界更容易跑通。

朱政则从机器人的落地角度做了对比。他的看法是，

现在VLA或者说相关的机器人模型，在真实落地方面比世界模型要成熟得多。

原因在于，当前机器人更适合落地的场景，主要还是工业场景或泛服务场景。这些场景任务很明确，机器人要做的动作种类有限，

企业可以提前采集大量后训练数据，把模型训练到接近可用、甚至接近100%成功率。

同时，VLA在量化、压缩、部署和蒸馏方面，已经有了相对完整的工程流程，比如能部署在Orin这类计算平台上。

相比之下，世界模型有两个现实的障碍。第一，很多世界模型依赖视频生成基础模型，而性能好的视频生成模型参数量都不小，常见的是5B、10B量级，对端侧部署压力很大。第二，世界模型的主要优势在于跨场景、多任务泛化，更适合家庭这类开放环境，但家庭场景距离成熟商业化还比较远。

因此，朱政判断，

短期内世界模型更可能先在生产环节发挥作用，比如作为数据引擎、训练工具、环境构造工具，而不是大规模部署到真机上做实时推理。

沈宇军则指出，VLA已经在尝试落地了，世界模型这条路也会很快进入投产尝试，但他并不认为这两条路线中的任何一条就是最终答案。

他的判断比较克制：两条路线短期内都能推动商业检验，因为没有商业检验，模型就无法真正迭代；但它们目前能做的动作和任务仍然非常有限。随着智能水平上升，任务成本会逐渐下降，两条路线最终可能会在某个点交汇，并发展出一种更适合物理世界的独特模型。他强调，

未来这个模型到底还叫不叫“世界模型”，其实不重要，重要的是它是否真正适用于物理世界。

王昊不主张把世界模型简单定义为视频生成模型。他认为，世界模型本质上是一种能力——模型内部是否形成了对世界运行方式的内化理解。

从自变量机器人的实践来看，

VLA和世界模型之间并没有清晰的边界

。VLA正在融合更多视觉和时序能力，而视频生成式世界模型也在从“预测下一状态”发展到“多轮预测动作和视频”。两条路线都在向语言、视觉、动作统一建模的方向演进。

他认为，推理慢等问题属于工程问题，并不构成最大的障碍。真正的问题是：世界模型到底能不能在具体任务上超越原有的VLA，尤其是在长程任务上体现出优势。如果世界模型只能做漂亮的Demo，却在长任务和真实任务中不如已有方法，那它的建模方式可能就有问题。

孙振国从控制理论的角度来区分VLA和世界模型。他认为，VLA更像一个开环系统，而世界模型为机器人提供了做闭环决策的可能性。

如果世界模型只是训练辅助工具，让action head的latent具备更多dynamics学习能力，那它只是多了一种训练范式。但世界模型的上限不应该止步于此。类比模型预测控制（MPC），世界模型真正重要的能力，是把未来的dynamics融入控制闭环，让机器人在行动前进行预演，并基于反馈持续修正。

他承认，基于视频生成底座的世界模型推理更重，因为多了预测head或控制回路。但他认为，如果在隐空间（latent space）里做轻量化预演，并发展更轻量的动作生成或动作条件模型，世界模型用于多轮闭环控制是可能的。

世界模型与VLA：替代、并存还是融合？

围绕着世界模型和VLA的关系，嘉宾们普遍不认为世界模型会简单取代VLA。更主流的看法是：二者正在相互吸收，未来可能会融合成一个新的统一架构。

朱政认为，现在不管看国外开源创业公司，还是大厂的研究路线，

都能看到VLA和世界模型互相吸收优点。

VLA正在吸收预测未来状态的能力，不管是显空间预测还是隐空间预测；世界模型也不再只是视频生成，而是在推理时预测动作，在训练时同时预测状态、视频和动作。由于研究这两类模型的人群本身高度重合，未来行业可能很快就不再争论到底是VLA还是世界模型，而是会形成兼具两类结构的模型。

沈宇军认为，

VLA和世界模型目前都不是上限特别高的路线，至少不会是最终的终点。

短期它们都需要投产验证，但长期来看，物理世界可能需要一种不同于现有概念的新模型。他认为，这种模型很可能会在两条路线的交界处出现。到时候它是不是还被称为世界模型，不必过度纠结。

王昊认为，VLA和世界模型本质上是在从不同的方向走向统一。

VLA借助语言能力，但缺少对时间和视频的处理；视频生成式世界模型有时序建模能力，但语言能力比较弱。实际研发中，两条路都会暴露能力短板，因此自然会融合。关键是要实现语言、视觉和动作的对齐。

他认为，世界模型不能仅靠视频生成或状态预测来证明价值，而是要在联合预测中帮助模型形成对世界的内部理解。

孙振国更关心世界模型是否能进入控制闭环。如果只是在训练阶段辅助VLA，那它和VLA的边界并不清晰；如果能像基于模型的控制一样，用于预测未来、评估动作后果、支持多轮控制，那它就真正体现了世界模型的独特价值。

长尾、风险与安全：世界模型能否解决边缘情境？

主持人提出了一个很现实的问题：真实系统往往最需要处理的，恰恰是那些关键、危险、罕见的未来。比如自动驾驶中即将碰撞的情境，机器人交互中打翻杯子或碰倒物品的情况。嘉宾们围绕长尾数据、安全和风险控制展开了讨论。

孙振国认为，

世界模型在解决长尾问题上有潜力。因为VLA训练往往更依赖高质量的成功轨迹，而世界模型学习的是未来预测。

对世界模型来说，成功数据和失败数据都有效，只要它们能反映环境dynamics。

他提到，在自动驾驶领域，把世界模型作为长尾数据生成器已经有不少尝试。因此，长尾问题不一定是世界模型的短板，反而可能是它的优势场景。

朱政从自动驾驶的经验出发指出，自动驾驶相比机器人有先天的数据优势。汽车即使没有自动驾驶功能也能上路，因此可以积累海量的路测数据。在这些数据中，大约有1%是边缘情境。只要有合适的数据挖掘方法，就能从海量数据中找出风险样本，再训练一个专门生成边缘情境的世界模型，把长尾样本的比例从1%扩展到10%甚至更高。

但这个前提在具身智能中并不存在。机器人无法像车辆那样自然积累上亿公里级别的数据，也很难从中挖掘大量控制失败的样本。具身场景只能在实验室、工厂或其他受控条件下，逐步采集失败案例。

沈宇军认为，当前模型能力还没有到真正需要讨论安全的阶段，但安全一定得提前考虑。

他指出，

机器人和自动驾驶不同。

车祸后果严重，但自动驾驶有交通规则，场景相对可枚举；家庭机器人面对的生活场景则过于开放，失败的类型几乎无法穷尽。生活中的小错误，比如打翻水杯、碰倒东西，人类也会犯，只要不造成重大安全事故，容错率反而比自动驾驶高。

沈宇军提出了两个未来的方向：

第一，机器人部署后应该继续学习。

机器人出厂时带着同一个模型，但卖到不同家庭一个月后，应该根据各自的环境变得不同，更适配具体家庭。

第二，可以引入低成本的人类示教。

如果机器人打翻了水杯，人可以用简单的采集设备示范如何收拾桌子，机器人通过一两次示范就能学习新的行为。

王昊同意沈宇军关于开放世界不可穷尽的判断。他认为，试图通过世界模型或数据驱动的方式，覆盖具身场景中所有的边缘情境，并不现实。人类只能在一个小世界中为机器人采集数据，但机器人真实面对的是远比人类预设更复杂的开放世界。

因此，关键不是帮机器人覆盖所有场景，而是赋予机器人更多的能力，尤其是学习能力。他强调：“学习不是训练的一种方式”，训练只是学习的一部分。机器人如果不能在部署后保持学习能力，就不可能从实验室走向开放环境。

他还提到，自变量机器人在真实家庭评测中发现，模型在自有评测环境中任务成功率比较高，但放到提前没有接触过的家庭环境后，成功率会明显下降。这说明，光靠训练数据本身，无法彻底解决开放环境下的泛化问题。

郭春超从机器学习的角度指出，边缘情境本质上是泛化的问题。要解决泛化，当前基于短视频片段和像素空间的学习机制，效率其实很低。

他举例说，模型看到倒水会洒，不能只学习画面，而应该理解“水是液体”“液体会流动”“倾倒液体可能会洒落”。这样换成牛奶、果汁甚至危险的化学液体时，模型才能实现泛化。

光靠采集倒100种液体的视频并不现实，关键是形成语言和概念层面的抽象。

因此，郭春超认为，

越是专业性的边缘情境，越需要以语言为中心的多模态模型发挥作用。

即使团队做的是视觉和多模态，解决泛化问题也离不开以语言为中心的抽象与决策能力。

泛化能力的瓶颈：范式、数据、强化学习还是持续学习？

在讨论中，一个潜在的共识正在浮现：预测能力并不是世界模型的真正分水岭，泛化能力才是。

朱政认为，

当前距离真正可用，最大的差距可能在于行业对强化学习的重视不够。

他认为，过去行业在模仿学习、多模态对齐、语言对齐上做了大量的工作，也有很多开源框架可以借鉴。但在如何权衡仿真强化学习、真机强化学习以及世界模型中的强化学习方面，探索还远远不够。

不管是跨场景、跨物体泛化，还是未来的家庭机器人，朱政认为都必须重视强化学习。机器人不能只模仿已有的轨迹，还需要通过试错和反馈来提升能力。

沈宇军认为，短期内泛化的核心仍然是数据。机器人和人一样，见过才会做，没见过就不会做。

一个人到新家庭当保姆，没用过某些家电也得问人，不能要求机器人天然zero-shot做得比人还好。

但他强调，

数据问题不仅是数量，更是质量。数据的分布、标注方式、组织方式都非常重要。

数据量堆到一定阶段后，泛化能力的提升就不再主要来自更多数据，而是来自持续学习和快速学习的能力。

他认为，未来的机器人应该能通过少量样本，甚至一次示范，就快速学会新任务。凌波的目标也不是追求完美的zero-shot，而是在后训练过程中，让所需的样本越少越好。

孙振国认为，泛化本身不应该被视为终极目标。人类也不是天生会做所有事情，而是具备基础的学习能力，并且能以较低的成本实现自我提升。

他更关注模型是否能拥有foundation model级别的基础能力，并在新场景中快速自我进化。他认为强化学习、持续学习、终身学习都是值得探索的路径，而世界模型天然就具备某种自我进化的潜力。

他的判断是，未来行业可能不再重点讨论“泛化”，而是讨论模型如何在目标场景中快速达到所需的能力状态。

哪些世界模型能力已经走出Demo？

朱政认为，目前已经有一些多任务的尝试。在他的理解中，VLA更适合单任务，而世界模型更适合多任务。但他不认为世界模型已经大规模进入生产，只是看到一些早期能力正在浮现。

沈宇军则认为，如果讨论物理世界，他暂时没有看到任何世界模型的能力真正进入了可投产的阶段。数字世界可能进展更快，尤其是游戏方向，可能是最先被改变的场景。

王昊提出了一个重要的区分。如果世界模型被定义为一个先显式生成视频或状态，再用它引导动作生成的两阶段系统，那么目前还没有真正落地。因为视频或状态预测能力本身还不够强，后续的动作生成会被卡住。

但如果世界模型被理解为一种隐式表征，即训练时利用视频建模能力引导动作生成，推理时不一定显式生成视频，那其实已经有相当多的任务在做了。他认为，这类能力很难说完全来自世界模型、语言还是视觉，而是多模态的联合能力。

在开放的家庭任务中，他观察到了一些泛化增强的表现。比如同样是擦桌子、整理桌面，不同家庭中的背景、光照、物体都不同，隐式的世界建模能帮助模型更好地适应变化。

他还指出，世界模型如果要解决长程任务，不能只靠短视频预测。

视频预测不需要很长，因为长预测误差会积累，也很耗费时间。

更合理的方式是结合语言，把短期的世界预测和长期的任务规划结合起来。

郭春超认为，

满足高容错、环境可验证、短链条这几个条件的应用会更快落地。

比如游戏原型验证，已经可以用模型快速生成游戏场景原型，帮助团队判断是否符合需求。

未来，交互式娱乐、交互式短视频、交互式影视、互动营销和互动广告也可能较快落地。这些场景不是完全严肃的线上生产系统，但已经具备一定的可用性，并且会随着模型质量的提升逐步扩大。

孙振国认为，如果追求zero-shot到所有场景，世界模型离落地还很远。但如果是在结构化场景或单一场景内做结构性的泛化，已经能看到商业化的可能。

他举例提到了心脏超声机器人项目，基本可以对成年男性进行较精确的心脏超声扫描。这类场景任务边界更清楚，因此比通用机器人更接近落地。

五年后，今天哪些观点可能被证明是错的？

孙振国认为，今年以来主流的现代世界模型范式大多基于视频生成底座，尤其是语言条件世界模型。但他认为这种范式的瓶颈很明显。

相比之下，他更相信动作条件世界模型，也就是以动作为条件来预测下一个状态。对于机器人而言，动作是改变世界状态的关键变量，仅靠语言条件生成未来，并不足够。

郭春超也认为，如果只是基于当前的视频生成模型做后训练，再拿来当世界模型用，可能并不合适。他强调，未来也许会有新的视频生成范式或多模态融合范式，但就现阶段而言，基于密集视角或10秒、15秒短视频片段的学习方式，距离真正的世界智能还很远。

王昊认为，五年后回头看，试图用互联网数据或纯第一人称视角数据来训练具身世界模型，可能会被证明是错的。

他的理由是，具身智能的核心在于交互。比如伸手拿水瓶，大部分时间只是手在靠近水瓶，真正重要的是接触前后那一瞬间的状态突变。状态平滑变化容易预测，但接触、受力、状态切换这些交互过程，很难仅从互联网观察数据中学到。

因此，纯观察数据无法充分降低具身交互中的关键信息不确定性。真正的世界模型，需要理解物理交互导致的状态改变。

沈宇军认为，

最大的错误，可能是把世界模型仅仅看作数据生产工具。

他从生成模型的经验出发，提出了一个悖论：如果生成模型强到可以生成足够多、足够好的数据来训练另一个模型，那它自身大概率已经具备了蒸馏出目标能力的潜力；如果它不够强，那它生成的数据也未必足够好。这个问题就像一个莫比乌斯环，长期来看，很难真正证明它有效。

因此，

他不太相信“用生成模型生成大量数据，再训练另一个强模型”是世界模型的最终路线。

一个足够强的模型，不应该只是另一个模型的数据供应方。

朱政则认为，

五年后可能被证伪的，是当前某些“数据大跃进”式的想法。

有人提出年底采集1000万小时数据，甚至未来采集1亿小时数据。但他认为，如果不提高数据利用效率，这在经济上是不可接受的。

他估算，如果每年训练几十万小时数据，就可能需要花费数亿元级别的数据采集和GPU成本。如果数据量扩大10倍、100倍甚至1000倍，成本将达到不可持续的水平。

因此，他认为未来的强世界模型，更可能是建立在几百万小时的高质量数据上，而不是几亿小时的粗放数据上。

世界模型与世界的距离：数据、技术路线和落地预期

世界模型还处在非常早期的阶段，距离真正走进生产环节，路还很长。

世界模型在真实系统中处于什么阶段？

世界模型在真实系统中处于什么阶段？

原型阶段

容错度高、环境可验证、落地链条短

现在VLA或者说相关的机器人模型，在真实落地方面比世界模型要成熟得多。

企业可以提前采集大量后训练数据，把模型训练到接近可用、甚至接近100%成功率。

短期内世界模型更可能先在生产环节发挥作用，比如作为数据引擎、训练工具、环境构造工具，而不是大规模部署到真机上做实时推理。

未来这个模型到底还叫不叫“世界模型”，其实不重要，重要的是它是否真正适用于物理世界。

VLA和世界模型之间并没有清晰的边界

世界模型与VLA：替代、并存还是融合？

世界模型与VLA：替代、并存还是融合？

都能看到VLA和世界模型互相吸收优点。

VLA和世界模型目前都不是上限特别高的路线，至少不会是最终的终点。

长尾、风险与安全：世界模型能否解决边缘情境？

长尾、风险与安全：世界模型能否解决边缘情境？

世界模型在解决长尾问题上有潜力。因为VLA训练往往更依赖高质量的成功轨迹，而世界模型学习的是未来预测。

机器人和自动驾驶不同。

第一，机器人部署后应该继续学习。

第二，可以引入低成本的人类示教。

光靠采集倒100种液体的视频并不现实，关键是形成语言和概念层面的抽象。

越是专业性的边缘情境，越需要以语言为中心的多模态模型发挥作用。

泛化能力的瓶颈：范式、数据、强化学习还是持续学习？

泛化能力的瓶颈：范式、数据、强化学习还是持续学习？

当前距离真正可用，最大的差距可能在于行业对强化学习的重视不够。

一个人到新家庭当保姆，没用过某些家电也得问人，不能要求机器人天然zero-shot做得比人还好。

数据问题不仅是数量，更是质量。数据的分布、标注方式、组织方式都非常重要。

哪些世界模型能力已经走出Demo？

哪些世界模型能力已经走出Demo？

视频预测不需要很长，因为长预测误差会积累，也很耗费时间。

满足高容错、环境可验证、短链条这几个条件的应用会更快落地。

五年后，今天哪些观点可能被证明是错的？

五年后，今天哪些观点可能被证明是错的？

最大的错误，可能是把世界模型仅仅看作数据生产工具。

他不太相信“用生成模型生成大量数据，再训练另一个强模型”是世界模型的最终路线。

五年后可能被证伪的，是当前某些“数据大跃进”式的想法。

热门资讯

热门手游

相关攻略

热门专题