您的位置：首页 > > 教程攻略 > ai资讯 >国产具身大模型 Wall-OSS-0.5 重磅开源：预训练即可“零样本”部署

国产具身大模型 Wall-OSS-0.5 重磅开源：预训练即可“零样本”部署

来源:互联网 更新时间:2026-05-28 14:28

2026年5月，国内具身智能领域迎来了一次值得关注的技术突破。自变量机器人（X Square Robot）正式开源了其最新研发的VLA（视觉-语言-动作）模型——

Wall-OSS-0.5

。这个模型的核心突破在于：它直接跳过了那个让行业头疼已久的“考前微调”环节，实现了在真实机器人上的“零样本”部署。换句话说，模型不再需要针对每个具体任务进行专项训练，拿来就能用，而且效果不俗。

大模型元宇宙 (1)

从“定制脚本”到“通用大脑”：行业困局如何被打破？

长期以来，具身智能领域有一个心照不宣的困境：大多数模型在发布测试成绩之前，都得针对特定任务进行一番大规模微调。这就带来一个棘手的问题——你很难判断，这个模型到底是真正具备了“通用大脑”的泛化能力，还是仅仅记住了某个特定场景的操作脚本？

Wall-OSS-0.5给出的回答很干脆：不微调，直接上。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成了预训练。之后，团队没有做任何针对性的任务微调，就把它直接部署到了真实机器人上，测试涵盖语义理解、刚性/柔性物体操作、精细化操作等17个挑战性任务。结果如何？数据说话。

数据说话：零样本部署与微调上限的双重突破

测试结果远远超出了预期。几个关键数据值得拿出来说说：

零样本部署能力
：在未经微调的情况下，400k预训练步数的模型版本，在17个零样本任务中，有4个任务得分超过了80分（满分100）。尤其让人意外的是，在“绳子收紧”这个从未在预训练中间出现过的柔性物体任务上，它竟然拿下了82分。这意味着模型并非死记硬背，而是具备了某种物理直觉的迁移能力。
微调上限显著提升
：即便是需要针对性微调的场景，Wall-OSS-0.5也展现了惊人的学习效率。和行业标杆π0.5做个对比：在同等数据预算下，Wall-OSS-0.5的平均任务进度领先了17.5分。而在精细化操作任务（比如精密插入）中，它的成功率提升几乎是数量级的——这个差距，已经不是一个量级那么简单了。
“能力重塑”而非退化
：一个有趣的发现是，模型在高强度动作训练后，其多模态感知能力不仅没有受损，反而在视觉定位和推理能力上获得了“重塑式”进化。这打破了传统认知——以往人们总担心“学动作会忘掉看和说”，但这里恰恰相反。

四项关键技术，撑起这场技术跃迁

Wall-OSS-0.5的出色表现，并非偶然。团队在底层技术上做了四件实实在在的事情：

梯度桥接（Gradient Bridging）
：核心思路是把动作监督信号直接强行注入预训练主干，让模型在底层表征上真正实现“看、说、动”的统一。这就像打通了视觉、语言和动作之间的“任督二脉”，不再是各说各话。
视觉对齐Tokenizer
：确保每一个动作Token都承载了明确的视觉语义。换句话说，模型不再只是“看到”一个物体，而是能够理解这个物体的物理属性，并基于此推演出合理的动作。
动作空间监督
：把训练重心从琐碎的高频细节，转向轨迹的整体结构。这好比教练教运动员，不再纠结于每一个小动作的精准度，而是关注整套动作的流畅性和有效性。结果是收敛效率大幅提升。
DMuon分布式优化
：这是底层系统优化的功夫。研发团队将异构计算开销降低了100倍，使得上述复杂的训练方法，在大规模集群上真正具备了落地的可能性。否则，再好的算法也跑不起来。