来源:互联网 更新时间:2026-05-26 16:01
机器人看得见,但不一定看得准。这几乎是当前视觉-语言-动作(VLA)模型面临的一个普遍困境。大量模型仍然主要依赖二维视觉信息,一旦遇到需要精确定位、细微摆放或是判断物体遮挡关系的任务,成功率就会大打折扣。
要补上空间感知这块短板,通常有两条路可走,但各有各的代价。显式3D路线依赖深度传感器和点云重建,硬件链路长,对设备标定误差非常敏感;隐式3D路线则试图直接从RGB图像中学习几何信息,虽然省去了额外硬件,但不少方案依赖庞大的基础模型,训练和推理的成本都居高不下。
现在,上海交通大学MINT实验室团队提出了一条颇具巧思的中间路线:

从结果来看,它在仿真基准测试中表现不俗:Meta-World任务上达到84.4%成功率,LIBERO任务上更是高达95.4%。部署到真实机器人上,平均成功率也能维持在90%左右。更关键的是部署开销:仅需约3.2 GB的GPU显存,推理频率能达到约12.3 Hz。
Evo-Depth的核心设计思路非常清晰:从多视角的RGB图像中提取紧凑的隐式深度表征,再以轻量化的方式将其融入视觉-语言通路,最终通过一个基于flow-matching的动作专家模块输出连续、精细的动作指令。

整个系统架构可以拆解为三个关键部分:
这个模块的任务是从多视角图像中提取隐式深度特征。它的重点不在于生成高成本的、显式的3D中间表示(如点云),而是强调捕捉空间布局和相对几何关系。为了实现轻量化,IDEM的主干网络参数控制在约0.13B,并借助多视角深度预训练进行初始化,从而在参数有限的前提下,引入了与深度相关的先验知识。
SEM的作用是将IDEM提取的隐式深度特征,作为一种调制信号,来增强视觉-语言联合表征。这种融合方式比直接增加一个独立的深度处理分支要克制得多:原有的视觉语言模型(VLM)继续专注于语义理解,而深度特征则主要负责提供空间信息的补充。这种分工协作的设计,旨在提升性能的同时,尽可能控制延迟和显存开销。
当多个模块需要联合训练时,优化过程很容易变得不稳定。为此,研究团队采用了渐进式对齐训练策略。训练分阶段进行:首先对齐深度表征,然后进行多模态融合,最后再学习动作策略。这种分步走的方法,有效提升了训练的稳定性和最终效果。动作头则采用了当前VLA领域较为流行的flow-matching方法。
在总参数约0.9B的配置下,论文报告的综合性能如下:
值得注意的是,除了关注基准测试分数,论文也明确给出了部署侧的开销与实时性指标。对于最终需要运行在机器人实时控制回路中的VLA系统而言,这部分信息的重要性,丝毫不亚于任务成功率。
归根结底,Evo-Depth试图解决的是一个非常实际的问题:
从结果看,它确实找到了一种平衡:相比纯二维的VLA模型,它补充了关键的空间信息;而相比那些更“重”的、依赖显式3D或庞大基础模型的方案,它又最大限度地保留了部署的效率和可行性。
对于正在深耕机器人操作、空间智能或VLA系统开发的团队而言,这类在
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
BuuPo官网在哪下载 最新官方下载安装地址
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
无尽花界时装合辑
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
《英雄无敌3》不能在塔楼里城市里招募单位介绍
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc