您的位置：首页 > > 教程攻略 > ai资讯 >Masked IRL：大语言模型助力机器人理解模糊指令

Masked IRL：大语言模型助力机器人理解模糊指令

来源:互联网 更新时间:2026-06-27 07:49

想象一下，在不久的将来，你在仓库或办公室工作，被要求帮一名新员工熟悉基本工作流程。不同寻常的是，这名“新员工”是一台机器人。为了完成教学任务，你可能会采用“示范加讲解”的方式——亲身演示操作步骤，同时用语言说明你在做什么。

举个更具体的例子。假设你让机器人在你开Zoom会议期间把咖啡放到桌上，同时不打扰到你。这意味着机器人需要懂得与你和笔记本电脑保持距离，以免影响会议进行。要让机器人具备这种行为能力，就需要用清晰展示完整任务的数据对其进行训练。此前，计算机科学家们尝试过很多方法，要么靠大量实体演示，要么靠详尽的文字说明来向机器人传授操作任务。但问题在于，如果两者不能兼备，机器人很可能会误解任务要求。

同时提供演示和说明对人类来说相当费时费力。正因如此，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员开发了一套自动化机器人教学系统。这套系统不仅能自动理清模糊指令，还将所需的演示数据量减少了近五倍。他们将这套方法命名为“掩码逆向强化学习”（Masked IRL）。该方法利用大语言模型，根据用户演示数据对含糊提示进行扩展说明；另一个大语言模型则负责从环境中筛选出算法在制定运动方案时应重点参考的信息。这样一来，机器人在家庭、办公室和工厂等环境中就能更安全地完成各类任务。

“当用户与机器人交互时，并不总是愿意把任务的每个细节都说清楚，我们的方法在这种场景下就能派上用场，”麻省理工学院博士生、CSAIL研究员、该论文第一作者黄旼勇（Minyoung Hwang）表示，“我们的目标是让机器能够真正理解用户的需求，同时把人工操作降到最低限度。”

黄旼勇指出，Masked IRL能够帮助机器人在人类可能不会主动描述但又至关重要的环境要素中安全导航。举个例子，当机器人去厨房帮你取零食时，它可能并不知道要绕开你的笔记本电脑；工厂中的机器人在将物品放入不同箱子时，也需要在货架间小心穿行。

在此类场景中学习新任务时，Masked IRL通过机器人的传感器采集周围环境信息，并记录每一次动觉示教的运动过程。所谓动觉示教，就是人类通过直接移动机器人的肢体来教它完成特定动作——你可以想象成给机器人做物理治疗：弯曲它的关节，示范抓取、移动和放置物体的方式。

麻省理工学院的系统随后会调用大语言模型，将这一系列动作（即运动轨迹）与最优路径进行比较，并对提示中含糊不清的表述进行扩展——例如将“靠近”具体化为“靠近桌面”。结合轨迹对比与明确后的指令，大语言模型逐步理解训练动作对任务的重要意义。

第二个大语言模型则负责评估环境细节，例如障碍物的位置和目标物体的形状。在这个过程中，它会对自己认为与当前任务无关的要素进行“掩码”处理（即忽略），并为每项细节打分：相关的标记为“1”，不相关的标记为“0”。比如用户演示期间是否靠在桌子上，会被评定为“0”——视为无关信息。所有被标记为“1”的细节则会由算法纳入最终行动方案。

这种掩码机制使Masked IRL在三维仿真和真实环境测试中均优于同类基准方法，因为它帮助机器人学会了如何判断信息的优先级。借助该系统，无论是虚拟机器人还是实体机器人，都能灵活地在障碍物之间移动物体——例如绕过笔记本电脑、将咖啡杯移到桌面不同位置。在这些任务中，Masked IRL识别用户未明确表达的偏好的准确率，比同类基准方法高出最多15个百分点。

在仿真实验中，CSAIL研究人员还发现Masked IRL的学习效率更高——与基准方法相比，它只需更少的演示次数就能掌握移动杯子的技能。研究还表明，当大语言模型对指令进行明确化处理时，机器人的表现明显优于直接执行模糊指令的情况。

这种更加精准的方法同样在真实机械臂上得到了验证。机器人能够执行训练阶段从未见过的指令。经过50次动觉示教训练后，机器人能够在避开用户电脑的同时，小心地将杯子递向用户——它学会绕开障碍物，正是得益于对“保持距离”这一笼统指令的具体化理解。此外，机器人还在“靠近”桌面的同时完成了擦桌任务，并在“远离”人和桌子的前提下将一袋薯片递给用户。

Masked IRL目前能够感知并理解用户未明言的信息，但未来或许还能“看见”这些信息。CSAIL研究人员计划为该系统配备摄像头，使其具备拍摄周围环境的能力，从而能够识别并聚焦于特定目标。例如，当用户指示机器人拾取玩具时，它可能会注意到附近的香蕉，并在处理目标物体之前自动将其忽略。

该论文由黄旼勇与三位CSAIL同事共同完成，包括博士生亚历山德拉·福西-斯梅雷克（Alexandra Forsey-Smerek）、博士后纳撒尼尔·丹勒（Nathaniel Dennler），以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布（Andreea Bobu）。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖项的部分资助，以及美国国防部的支持。相关成果将于2026年6月在IEEE国际机器人与自动化大会上正式发表。