来源:互联网 更新时间:2026-06-27 07:49
想象一下,在不久的将来,你在仓库或办公室工作,被要求帮一名新员工熟悉基本工作流程。不同寻常的是,这名“新员工”是一台机器人。为了完成教学任务,你可能会采用“示范加讲解”的方式——亲身演示操作步骤,同时用语言说明你在做什么。

举个更具体的例子。假设你让机器人在你开Zoom会议期间把咖啡放到桌上,同时不打扰到你。这意味着机器人需要懂得与你和笔记本电脑保持距离,以免影响会议进行。要让机器人具备这种行为能力,就需要用清晰展示完整任务的数据对其进行训练。此前,计算机科学家们尝试过很多方法,要么靠大量实体演示,要么靠详尽的文字说明来向机器人传授操作任务。但问题在于,如果两者不能兼备,机器人很可能会误解任务要求。
同时提供演示和说明对人类来说相当费时费力。正因如此,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一套自动化机器人教学系统。这套系统不仅能自动理清模糊指令,还将所需的演示数据量减少了近五倍。他们将这套方法命名为“掩码逆向强化学习”(Masked IRL)。该方法利用大语言模型,根据用户演示数据对含糊提示进行扩展说明;另一个大语言模型则负责从环境中筛选出算法在制定运动方案时应重点参考的信息。这样一来,机器人在家庭、办公室和工厂等环境中就能更安全地完成各类任务。
“当用户与机器人交互时,并不总是愿意把任务的每个细节都说清楚,我们的方法在这种场景下就能派上用场,”麻省理工学院博士生、CSAIL研究员、该论文第一作者黄旼勇(Minyoung Hwang)表示,“我们的目标是让机器能够真正理解用户的需求,同时把人工操作降到最低限度。”
黄旼勇指出,Masked IRL能够帮助机器人在人类可能不会主动描述但又至关重要的环境要素中安全导航。举个例子,当机器人去厨房帮你取零食时,它可能并不知道要绕开你的笔记本电脑;工厂中的机器人在将物品放入不同箱子时,也需要在货架间小心穿行。
在此类场景中学习新任务时,Masked IRL通过机器人的传感器采集周围环境信息,并记录每一次动觉示教的运动过程。所谓动觉示教,就是人类通过直接移动机器人的肢体来教它完成特定动作——你可以想象成给机器人做物理治疗:弯曲它的关节,示范抓取、移动和放置物体的方式。
麻省理工学院的系统随后会调用大语言模型,将这一系列动作(即运动轨迹)与最优路径进行比较,并对提示中含糊不清的表述进行扩展——例如将“靠近”具体化为“靠近桌面”。结合轨迹对比与明确后的指令,大语言模型逐步理解训练动作对任务的重要意义。
第二个大语言模型则负责评估环境细节,例如障碍物的位置和目标物体的形状。在这个过程中,它会对自己认为与当前任务无关的要素进行“掩码”处理(即忽略),并为每项细节打分:相关的标记为“1”,不相关的标记为“0”。比如用户演示期间是否靠在桌子上,会被评定为“0”——视为无关信息。所有被标记为“1”的细节则会由算法纳入最终行动方案。
这种掩码机制使Masked IRL在三维仿真和真实环境测试中均优于同类基准方法,因为它帮助机器人学会了如何判断信息的优先级。借助该系统,无论是虚拟机器人还是实体机器人,都能灵活地在障碍物之间移动物体——例如绕过笔记本电脑、将咖啡杯移到桌面不同位置。在这些任务中,Masked IRL识别用户未明确表达的偏好的准确率,比同类基准方法高出最多15个百分点。
在仿真实验中,CSAIL研究人员还发现Masked IRL的学习效率更高——与基准方法相比,它只需更少的演示次数就能掌握移动杯子的技能。研究还表明,当大语言模型对指令进行明确化处理时,机器人的表现明显优于直接执行模糊指令的情况。
这种更加精准的方法同样在真实机械臂上得到了验证。机器人能够执行训练阶段从未见过的指令。经过50次动觉示教训练后,机器人能够在避开用户电脑的同时,小心地将杯子递向用户——它学会绕开障碍物,正是得益于对“保持距离”这一笼统指令的具体化理解。此外,机器人还在“靠近”桌面的同时完成了擦桌任务,并在“远离”人和桌子的前提下将一袋薯片递给用户。
Masked IRL目前能够感知并理解用户未明言的信息,但未来或许还能“看见”这些信息。CSAIL研究人员计划为该系统配备摄像头,使其具备拍摄周围环境的能力,从而能够识别并聚焦于特定目标。例如,当用户指示机器人拾取玩具时,它可能会注意到附近的香蕉,并在处理目标物体之前自动将其忽略。
该论文由黄旼勇与三位CSAIL同事共同完成,包括博士生亚历山德拉·福西-斯梅雷克(Alexandra Forsey-Smerek)、博士后纳撒尼尔·丹勒(Nathaniel Dennler),以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布(Andreea Bobu)。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖项的部分资助,以及美国国防部的支持。相关成果将于2026年6月在IEEE国际机器人与自动化大会上正式发表。
A:Masked IRL(掩码逆向强化学习)是麻省理工学院CSAIL团队开发的一套机器人教学系统。它的核心作用是帮助机器人理解人类模糊的任务指令,自动补全用户没有明说的细节,同时将所需的演示数据量减少近五倍,让机器人能在家庭、办公室和工厂等场景中更安全、准确地完成任务。
A:第一个大语言模型负责对模糊指令进行扩展和具体化,例如将“靠近”转化为“靠近桌面”,并结合运动轨迹理解动作的意义。第二个大语言模型则评估环境中各项细节的相关性,将重要信息标记为“1”,无关信息标记为“0”,只让关键细节进入最终行动方案,从而提升机器人的执行精准度。
A:Masked IRL在多个方面优于同类基准方法:识别用户未明说偏好的准确率最高提升15%;所需演示数据量减少近五倍,学习效率更高;在真实机械臂测试中,机器人能够执行训练阶段从未见过的新指令,展现出较强的泛化能力。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
archiveofourown 实战指南:常见用法整理
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
全链网:黄金价格因美元的走强及利率担忧而下跌
美国市场:股票相对债券的风险溢价正在消失
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
电影《遁甲门之消失的公主》剧情介绍
动漫《柚木家的四兄弟》剧情介绍
植物娘大战僵尸电脑端与手机端存档转移的方法
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc