热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >0.9B跑出90%真机成功率!上海交大为VLA补上空间感

0.9B跑出90%真机成功率!上海交大为VLA补上空间感

来源:互联网 更新时间:2026-05-26 18:36

机器人能“看见”,但未必能“看准”。

当前,大量视觉-语言-动作模型仍然主要依赖二维图像信息。一旦任务涉及到精确的定位、细致的物品摆放,或是需要判断物体间的遮挡关系——这些对空间感知要求高的场景,模型的成功率往往会大打折扣。

为机器人补上空间感,通常有两条技术路线,但各有各的代价。

显式3D路线依赖深度传感器和点云重建,硬件链路长,且对设备标定误差非常敏感;隐式3D路线则尝试直接从RGB图像中学习几何信息,虽然省去了额外硬件,但许多方案依赖于庞大的基础模型,导致训练和推理成本居高不下。

现在,上海交通大学MINT实验室团队提出了一条折中的新路径:Evo-Depth。这个约

0.9B

参数的模型,不增加硬件负担,而是通过一种紧凑的隐式深度编码方法,将空间感知能力“写入”VLA模型的决策策略中,旨在同时兼顾仿真环境下的性能与真实机器人上的部署效率。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感

其表现如何?在仿真测试中,Meta-World任务达成率84.4%,LIBERO任务达成率95.4%;在真实机器人平台上,平均成功率约为90%。部署方面,约需3.2 GB显存,推理频率可达约12.3 Hz。

目前,该项目的代码、模型权重及训练脚本均已全面开源。

轻量、可端到端训练

Evo-Depth的核心设计思路非常清晰:从多视角的RGB图像中提取紧凑的隐式深度表征,再以轻量化的方式将其融入视觉-语言处理通路,最终通过基于流匹配的动作专家模型输出连续、精细的动作指令。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感

整个系统主要由三个关键模块构成:

1. IDEM:隐式深度编码模块。

该模块负责从多视角图像中提取隐式的深度特征,其重点是捕捉空间布局和相对几何关系,而非生成计算成本高昂的显式3D中间表示。论文中,IDEM骨干网络参数约0.13B,并采用了多视角深度预训练进行初始化,从而在轻量化前提下引入了与深度相关的先验知识。

2. SEM:空间增强模块。

这个模块的作用,是将隐式深度特征作为一种调制信号,用来增强视觉-语言联合表征。与直接增加一个独立的深度处理分支相比,这种融合方式更为克制:原有的视觉语言模型继续专注于语义理解,而深度特征则主要负责提供空间信息增强,同时尽力控制由此带来的延迟和显存开销。

3. 渐进式对齐训练。

多模块联合训练常面临优化不稳定的挑战。为此,研究团队采用了渐进式对齐训练策略,通过分阶段的方式逐步完成:深度表征对齐、多模态融合,以及最终的动作学习。动作生成部分则采用了当前VLA领域中较为流行的流匹配技术。

在总参数约0.9B的配置下,论文报告的主要结果如下:

  • 仿真性能:

    Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。
  • 真机性能:

    平均成功率约90%。
  • 部署开销:

    约需3.2 GB GPU显存,推理频率约12.3 Hz。

值得注意的是,除了关注基准测试分数,论文也明确给出了部署侧的实际开销与实时性指标。对于最终需要运行在真实机器人控制回路中的VLA系统而言,这些信息往往与性能指标同等重要。

性能、成本与实时性的平衡术

归根结底,Evo-Depth试图解决的是一个经典的工程权衡问题:如何在不显著增加系统整体复杂度与资源消耗的前提下,有效提升视觉-语言-动作模型的空间理解与操作能力。

从结果来看,它似乎找到了一种平衡——相比纯二维的VLA模型,它补充了关键的空间信息;而相比那些更“重”的3D方案,它又较好地保留了部署的效率和实用性。

对于正在深耕机器人操作、空间智能或VLA系统研发的团队而言,这类在性能、成本和实时性之间寻求精妙折中的技术方案,其重要性正日益凸显。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc