来源:互联网 更新时间:2026-05-26 18:36
机器人能“看见”,但未必能“看准”。
当前,大量视觉-语言-动作模型仍然主要依赖二维图像信息。一旦任务涉及到精确的定位、细致的物品摆放,或是需要判断物体间的遮挡关系——这些对空间感知要求高的场景,模型的成功率往往会大打折扣。
为机器人补上空间感,通常有两条技术路线,但各有各的代价。
显式3D路线依赖深度传感器和点云重建,硬件链路长,且对设备标定误差非常敏感;隐式3D路线则尝试直接从RGB图像中学习几何信息,虽然省去了额外硬件,但许多方案依赖于庞大的基础模型,导致训练和推理成本居高不下。
现在,上海交通大学MINT实验室团队提出了一条折中的新路径:Evo-Depth。这个约

其表现如何?在仿真测试中,Meta-World任务达成率84.4%,LIBERO任务达成率95.4%;在真实机器人平台上,平均成功率约为90%。部署方面,约需3.2 GB显存,推理频率可达约12.3 Hz。
目前,该项目的代码、模型权重及训练脚本均已全面开源。
Evo-Depth的核心设计思路非常清晰:从多视角的RGB图像中提取紧凑的隐式深度表征,再以轻量化的方式将其融入视觉-语言处理通路,最终通过基于流匹配的动作专家模型输出连续、精细的动作指令。

整个系统主要由三个关键模块构成:
在总参数约0.9B的配置下,论文报告的主要结果如下:
值得注意的是,除了关注基准测试分数,论文也明确给出了部署侧的实际开销与实时性指标。对于最终需要运行在真实机器人控制回路中的VLA系统而言,这些信息往往与性能指标同等重要。
归根结底,Evo-Depth试图解决的是一个经典的工程权衡问题:如何在不显著增加系统整体复杂度与资源消耗的前提下,有效提升视觉-语言-动作模型的空间理解与操作能力。
从结果来看,它似乎找到了一种平衡——相比纯二维的VLA模型,它补充了关键的空间信息;而相比那些更“重”的3D方案,它又较好地保留了部署的效率和实用性。
对于正在深耕机器人操作、空间智能或VLA系统研发的团队而言,这类在性能、成本和实时性之间寻求精妙折中的技术方案,其重要性正日益凸显。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
BuuPo官网在哪下载 最新官方下载安装地址
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
无尽花界时装合辑
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
《英雄无敌3》不能在塔楼里城市里招募单位介绍
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc