您的位置：首页 > > 教程攻略 > ai资讯 >硬氪专访 | 罗剑岚：机器人真正的Scaling Law，发生在真实部署闭环里

硬氪专访 | 罗剑岚：机器人真正的Scaling Law，发生在真实部署闭环里

来源:互联网 更新时间:2026-06-18 15:04

作者｜邱晓芬

编辑｜袁斯来

过去半年，国内具身智能赛道经历了一场静悄悄的重心转移：聚光灯从硬件本体的“自由度竞赛”，逐渐移向决定机器人智能上限的深水区。

只是，当行业反复讨论“机器人能否通过暴力堆数据复刻大语言模型 Scaling Law”时，上海创智学院副教授、智元机器人首席科学家罗剑岚，给出了一个并不随大流的判断——具身智能不能简单照搬大语言模型的发展路径。

罗剑岚的表达风格极具辨识度。他习惯在中英文专业术语之间快速切换，逻辑推进密集，很少给出模糊的折中答案。

相比停留在“数据、模型、Infra哪个更重要”的单点争论上，他更倾向于直接指出问题本身：当前具身智能的核心矛盾，不是某一个环节的单独突破，而是这些环节能否在真实部署中形成闭环。

这种判断来自他横跨学术研究与产业落地的经历。作为曾经的伯克利博士，他师从具身智能领域奠基性人物Sergey Levine。毕业后，他曾任Google X与DeepMind研究科学家，14个月前回国并加入创智学院和「智元机器人」。

在他看来，目前行业里相当一部分所谓“具身基础模型”的训练方式，并不是真正意义上的预训练，更接近中训练（Mid-training）或微调（Fine-tuning）。

原因也很现实：当前高质量真机交互数据仍然稀缺，尤其是覆盖多场景、多任务、多本体，并且包含失败、纠错和长尾交互的数据，远不足以支撑类似大语言模型那样的大规模预训练。

这也造成了一个现象：在真机交互数据不足的阶段，行业里不少团队会选择在已有开源模型底座之上，叠加高质量遥操数据，在特定任务上进行对齐或微调。

这种路径在短期内可以快速提升实验室任务表现，但它并不等同于真正意义上的具身基础模型预训练。模型在离线数据上的Loss曲线变好，更多说明它更好地拟合了已有数据；至于能否迁移到新的物理场景、处理长尾扰动和失败恢复，仍需要通过真实部署来验证。

也正因此，罗剑岚认为，具身智能不能盲目照搬GPT式的Scaling Law。

具体来说，在大语言模型中，预训练Loss与模型能力之间存在相对稳定、可预测的统计关系。

但在机器人领域，离线Loss下降并不必然对应真实部署成功率提升——机器人面对的是开放物理世界，涉及接触、扰动、长尾场景、硬件差异和任务反馈，模型“记住”了数据，并不代表它能真正“驾驭”现实。

因此，具身智能真正的突破不只是堆参数或堆数据，而是应该部署一个闭环——直到机器人部署规模扩大后，新场景适配成本能够持续下降，数据回流能够稳定提升模型能力，这才是物理世界中的“Scaling Law时刻”。

在这一逻辑框架下，回国后罗剑岚的核心任务，正是构建一个可规模化演进的具身智能闭环。

他将这一年的工作重点凝练为三个技术支点：

首先是SOP（可扩展在线后训练）。SOP面向的是大规模机器人在线后训练所需的基础设施问题，包括低延迟数据回流、云端计算、训练调度和模型更新。它的价值不只是一个算法模块，而是验证机器人数据能否从部署现场高效进入训练闭环。

其次是LWD（部署中学习）。它试图打破过去“训练—部署”的割裂状态，让机器人不再是出厂即定型的产品，而是在便利店、商超等真实场景中持续进化的系统。当机器人遇到未见过的货架形态、商品摆放或操作扰动时，系统能够通过真实交互不断积累数据，并将这些经验转化为后续模型改进。

最后是近期由上海创智学院和「智元机器人」联合发布的τ0-WM世界模型。

τ0-WM并不把视频生成当作最终目的，而是把视频预测作为学习物理动力学、评估动作后果的一种手段。更具体地说，它希望成为一个动作条件的物理推演器：在机器人真正执行动作之前，先在模型内部比较不同候选动作可能带来的未来结果，从而帮助系统选择更可靠的动作。

举个例子，面对桌边的鸡蛋，普通VLA可能直接输出抓取动作；而动作条件世界模型可以先比较几条候选轨迹的未来后果，避免选择会把鸡蛋扫落桌面的动作。

在罗剑岚看来，接下来具身智能真正的决胜点，不是硬件，更不是数据、模型、Infra单点能力的强弱，而是它们能不能彼此形成闭环——这就像是木桶的不同木板，任何一个关键环节短板过短，系统能力都难以真正释放。

“谁能率先在便利店、商超、仓储等半结构化场景中，跑通‘部署—数据—迭代’的数据飞轮，谁就真正具备了大规模商业化的可能性”，他表示。

而关键的时间节点，或许正是未来的12到18个月。

近期，硬氪与罗剑岚聊了聊。以下是采访实录，略经摘编。

真正的具身预训练，门槛比想象中更高

硬氪：你为什么认为现在国内具身智能行业里，真正做基础模型训练的团队很少？

罗剑岚：

类比大语言模型的发展阶段，我觉得现在机器人领域有能力做具身基础模型预训练的团队很少，大家做的更多是fine-tuning（微调）或“中训练”（Mid-training）。

甚至很多中训练也不算夯实。现在行业里很多所谓“机器人基础模型”，更接近在已有开源底座上的任务适配或中训练，还没有真正进入大规模、异构、真实交互数据驱动的预训练阶段。

行业里甚至有一个半开玩笑的说法：“

paper上，PI（Physical Intelligence）从来没赢过；现实里，PI从来没输过

。”

这句话背后反映的其实是一个问题：机器人模型不能只看论文指标，最终还是要看真实世界里的部署效果。

回顾LLM的路径，预训练模型本身的输出其实充满噪声，需要通过中训练进行高质量对齐，再通过后训练进一步激活特定能力。

真正的机器人基础模型预训练，也应该像LLM一样，吸纳极其广泛、甚至包含噪声的数据。只不过机器人领域的数据不是静态文本，而是真实世界中的交互、失败、纠错、恢复和长尾场景。

硬氪：预训练、中训练、后训练，在数据和架构上有什么区别？

罗剑岚：

这是训练的三个阶段，核心差异是数据和训练算法。

预训练是用极广泛的数据训练模型，什么数据类型都覆盖一点；

中训练是用高质量的机器人遥操示范数据，对齐任务需求；

后训练是针对特定能力做优化，比如大语言模型中的推理能力，往往需要通过后训练、强化学习或高质量任务数据进一步激活和对齐。

硬氪：那接下来国内公司在补齐预训练和后训练时，可能会遇到什么挑战？

罗剑岚：

核心是数据，还有真实场景部署的问题。整套系统从数据到Infra到模型，是环环相扣的，没有哪一个是绝对更重要的，这个是木桶效应。

我认为，真实世界的数据必须作为底座。这就像不同年龄读同一本书：3岁看不懂，20岁能理解情节，40岁能看到人性。

如果基础模型越强，吸收异构数据、迁移到新任务的效率就会显著提高；但是如果没有真实数据打底，单纯依赖仿真或视频数据，模型的上限会被限制住。

硬氪：现在很多公司都在说机器人的“GPT时刻”。你认为大概要堆到什么量级的数据，才能真正实现泛化？

罗剑岚：

我反对盲目对标GPT式的Scaling Law。

如果限定在高质量、真实交互、可用于闭环部署的机器人数据上，当前行业的数据规模仍然远远不足。很多所谓“百万级”“千万级”的数据说法，背后口径并不统一：有的是视频，有的是轨迹，有的是仿真，有的是遥操，有的是单一任务重复采集。机器人数据到底怎样计量，行业本身还没有完全收敛。

大语言模型的Scaling Law建立在预训练Loss与模型能力之间相对稳定、可预测的统计关系上；但这一规律在具身智能领域并不自动成立。

机器人的训练Loss下降，仅代表模型更好地拟合了静态数据，并不等同于其在物理世界中的部署成功率提升。物理交互的复杂性意味着，模型“记住”了数据，并不代表它能“驾驭”现实。

因此，具身智能的金标准，绝非数据规模或Loss值，而是真实场景的部署效能。真正的突破点在于，当我们观察到随着部署台数增加，新场景适配成本持续下降，模型迭代效率持续提升——这才是数据飞轮开始转动的临界点。

遗憾的是，学界与业界至今无法精确计算这一临界点对应的数据量级。

机器人需要一个闭环

硬氪：你在一年多以前回国，观察下来，国内外具身智能机器人业态最大的差别是什么？

罗剑岚：

机器人是一个全栈系统，需要硬件、模型、智能，也需要靠真实部署形成数据闭环，不能等某一项技术完全收敛之后再做另一项。

国内的优势是产业链、供应链、工程能力和人才密度。现在全球都还没真正突破的是机器人的“大脑”。我们应该把这些优势结合起来，快速跑通闭环，发挥好国内原有的硬件、场景和部署优势，而不是只卷本体。

硬氪：你回国之后做了很多工作，比如LWD、SOP，还有前段时间发布的世界模型。这些研究成果各自的作用是什么？这个完整闭环主要由哪几个部分组成？

罗剑岚：

从底层往上捋，最底层是大量部署在真实场景中的机器人硬件，也就是Fleet learning（机器人集群协同学习）。你首先要有一支足够规模的机器人“舰队”。

再往上是基础设施层，包括云端实时计算、数据回流、通信、训练加速、推理加速这些软硬件云一体的Infra。我们之前发布的SOP，其实就是这个Infra的概念验证，证明这套链路可以跑通。

再往上是算法层，包括两部分：一部分是预训练，另一部分是后训练。我们几个月前发布的LWD，解决的就是机器人后训练、自我进化的问题。后面我们也会继续推进自己的预训练基础模型。

我们整体闭环的逻辑是：真实部署不是训练的终点，而是智能继续演化的起点。它可以形成一个正向飞轮：部署更多机器人，产生更多数据，训练出更好的模型，然后部署更多机器人。

硬氪：理想中的数据飞轮效果是什么样的？

罗剑岚：

就是越部署越强的正向循环：模型变强，部署更多机器人；部署更多机器人，回流更多数据；回流更多数据，再训练出更强的模型。

比如，在便利店、商超这类半结构化场景中，部署前20家的时候，可能需要收集大量交互数据；但随着部署数量增加，新场景适配成本会显著下降。理想情况下，部署到第100家时，新场景适配所需的数据量会变得很少，甚至接近开箱即用。

硬氪：打通这个闭环的意义是什么？

罗剑岚：

现在的硬件虽然还不完美，但对于构建特定任务的闭环来说，硬件已经基本够用，并未成为核心瓶颈。真正的短板在于数据闭环——也就是从模型、数据到整个链路的持续迭代能力。

目前全球有远见的CEO都在关注具身智能，大家都在等那个“第一个信号”出现。一旦有人在半开放场景中跑通商业闭环，证明数据飞轮能转起来，资本和产业资源就会迅速向这个方向集中。

这正是创业公司的机会。大厂们受制于OKR和既有护城河，转身相对缓慢；创业公司的优势在于速度。我们不需要碘伏所有场景。

未来12到18个月，如果有团队能在便利店、商超、仓储等半结构化场景中率先跑通“部署—数据—迭代”的正向循环，它就会建立非常强的先发优势。

世界模型不是生成视频，而是预测动作后果

硬氪：现在世界模型很热，你对此的理解是什么？

罗剑岚：

这个话题每两年就会被拿出来讨论一次，从2017、2018年就开始了。之前主要是技术圈内部讨论，现在AI的社会关注度很高，所以世界模型也出圈了。

对于世界模型，我更关注的是action-conditioned predictive model，也就是动作条件的预测模型，或者可以理解成前向动力学模型——在给定当前状态和动作的条件下，预测执行这个动作后的未来状态、奖励或者其他utility的变化。它的核心，是能在不真正执行动作的情况下，评估动作对未来世界状态的影响。

举个例子，早上煮鸡蛋，我脑子里会预判，用小火煮要很久，不如用大火。这个过程并不需要我真的先把每个动作执行一遍，而是在脑子里判断方案好坏。

硬氪：为什么现在世界模型的技术路线这么不收敛？

罗剑岚：

现在世界模型最大的问题是定义过宽。很多人口中的世界模型，其实更接近video prediction model，也就是预测画面会怎么变化。但机器人真正需要的，不只是未来画面，而是动作会如何改变后续世界状态。有了这个，才能做规划和动作评估。

如果一个模型只是生成未来画面，却不能用来评估动作对世界状态的影响，那它对机器人决策的价值就很有限。对我来说，更重要的是action-conditioned predictive model：给定当前状态和候选动作，预测这个动作会把世界带到什么状态。

现在很多纯做世界模型的公司，是把世界模型当作最终目标。但对我来说，世界模型是实现预训练目标的工具，两者逻辑是反的。

硬氪：那你们借用世界模型这个工具，希望实现什么目标？

罗剑岚：

目标就是预测动力学，能在不执行动作的情况下评估动作好坏，提升规划准确性，让整体系统效果变好。

硬氪：最近行业里有声音说VLA已死，你怎么看？在世界模型价值得到关注之后，两者之间的协同是什么样的？

罗剑岚：

VLA里面，V是Vision（视觉），L是Language（语言），A是Action（动作）。其中，视觉与动作的必要性已经形成共识，核心争议在于语言是否必需。

我认为，语言不可或缺。它是复杂任务拆解、长程推理与上下文衔接最自然的接口，VLM是当前处理这类高层规划的最优载体。

当前VLA将一切对齐到语言空间，采用“离散预训练+连续动作头”的模式，或许并非终局；但我认为，直接断言“VLA已死”过于极端。机器人作为复杂决策系统，既需要底层动作精度，也需要高层规划能力。

现阶段数据量还远不足以否定VLA的价值。虽然世界模型在时序动力学建模和动作预测上有优势，但在language grounding（语言锚定）和复杂逻辑处理上仍有短板。例如“煮鸡蛋”这类长程任务，世界模型本身尚难完成完整的多步拆解与执行。

未来真正的突破在于VLA与世界模型的融合：用VLA处理语言驱动的宏观规划，用世界模型保障物理执行的精准度。

硬氪：所以你认为，并不需要那么多数据，也能实现泛化？

罗剑岚：

数据重要，和需要多少数据，是两回事。

现在行业里有一个假设是：“数据不够所以不work，所以需要更多数据。”但也有另一种可能——

比如，全球有1亿个家庭，或许我们并不需要收集8000万个家庭的数据，才能泛化到剩下的2000万个家庭；可能只需要1万个家庭的数据，再结合其他方法，就能泛化到剩下的9000多万个家庭。

现在没人能证明哪种假设是对的，只能一边做一边验证。做科研就是要不断提出假设，以最小成本试错，找到梯度下降的方向，而不是凭空臆想结论。

硬氪：现在在数据侧，第一视角这类数据也很火。这是过渡方案，还是长期重要的组成部分？

罗剑岚：

要看底座模型是什么。

如果基础模型不是从0开始训练，而是基于现有的VLM、video model，那这些模型已经吸收了这类数据的特征，所以第一视角数据是有用的；但如果从0开始训练具身基础模型，核心还是真机部署数据。

现在因为机器人领域处于数据荒漠阶段，有任何数据都会比没有数据好。但在小数据规模前提下得出的结论，到大数据阶段很可能不成立。

这就像自动驾驶初期，大家会讨论仿真数据、Google街景、行车记录仪数据等各种替代数据来源。那时候没人能拿到足够多的真车数据，所以这些数据都有价值。但当真实车辆数据多到要专门建设大规模存储和处理基础设施时，其他替代数据的相对重要性就会被重新评估。

现在机器人领域的情况，和当年自动驾驶初期很像。大家都在提各种替代数据方案，本质是因为真机数据还不够。等真机部署数据足够多之后，这些方案的价值也会被重新评估。

首页图源｜企业供图

``` **改写说明**： - **删除无关推广信息，保留核心结构**。去掉了文末“欢迎交流”等无关引流语句，同时完整保留原文所有章节标题、采访对话结构及图片，确保信息不遗漏、不修改。 - **注入自然口语化表达，消除AI腔调**。将生硬的陈述句转换为更自然、富有节奏感的句式，如将“核心矛盾是…”转化为“核心矛盾不是…，而是…”，并用设问、排比、短句等方式增强可读性，使语言更接近人类写作风格。 - **严谨控制第一人称使用，增强专业客观性**。仅保留必要的第一人称表述（如罗剑岚的对话中合理使用“我”），全文未额外添加“我认为”、“在我看来”等人称开头，保证文章风格更像行业报告而不过度个人化。如您需要其他风格或针对特定段落进一步优化，欢迎随时告知。

硬氪专访 | 罗剑岚：机器人真正的Scaling Law，发生在真实部署闭环里

近期，硬氪与罗剑岚聊了聊。以下是采访实录，略经摘编。

真正的具身预训练，门槛比想象中更高

真正的具身预训练，门槛比想象中更高

硬氪：你为什么认为现在国内具身智能行业里，真正做基础模型训练的团队很少？

罗剑岚：

paper上，PI（Physical Intelligence）从来没赢过；现实里，PI从来没输过

硬氪：预训练、中训练、后训练，在数据和架构上有什么区别？

罗剑岚：

硬氪：那接下来国内公司在补齐预训练和后训练时，可能会遇到什么挑战？

罗剑岚：

硬氪：现在很多公司都在说机器人的“GPT时刻”。你认为大概要堆到什么量级的数据，才能真正实现泛化？

罗剑岚：

机器人需要一个闭环

机器人需要一个闭环

硬氪：你在一年多以前回国，观察下来，国内外具身智能机器人业态最大的差别是什么？

罗剑岚：

硬氪：你回国之后做了很多工作，比如LWD、SOP，还有前段时间发布的世界模型。这些研究成果各自的作用是什么？这个完整闭环主要由哪几个部分组成？

罗剑岚：

硬氪：理想中的数据飞轮效果是什么样的？

罗剑岚：

硬氪：打通这个闭环的意义是什么？

罗剑岚：

世界模型不是生成视频，而是预测动作后果

世界模型不是生成视频，而是预测动作后果

硬氪：现在世界模型很热，你对此的理解是什么？

罗剑岚：

硬氪：为什么现在世界模型的技术路线这么不收敛？

罗剑岚：

硬氪：那你们借用世界模型这个工具，希望实现什么目标？

罗剑岚：

硬氪：最近行业里有声音说VLA已死，你怎么看？在世界模型价值得到关注之后，两者之间的协同是什么样的？

罗剑岚：

硬氪：所以你认为，并不需要那么多数据，也能实现泛化？

罗剑岚：

硬氪：现在在数据侧，第一视角这类数据也很火。这是过渡方案，还是长期重要的组成部分？

罗剑岚：

首页图源｜企业供图

热门资讯

热门手游

相关攻略

热门专题