您的位置：首页 > > 教程攻略 > ai资讯 >基于条件扩散模型的策略生成：Make-An-Agent 方法

基于条件扩散模型的策略生成：Make-An-Agent 方法

来源:互联网 更新时间:2026-05-30 15:53

先说几个核心判断。在机器人策略学习这个领域，传统思路通常是基于轨迹采样或行为演示来学习状态到动作的映射，说白了，就是让模型从过去做过什么里去总结经验。但问题也显而易见：这种学习方式模拟的数据分布其实相当狭窄。而高维的策略网络参数如何通过低维的演示来有效指导，始终是个棘手的命题。

不过，扩散模型的出现改变了这个格局。尤其是在文本到图像这类生成任务里，扩散模型展现出的能力已经证明了它的实力。那顺着这个思路往下走，能不能把它用到策略生成里？于是就有了咱们今天要聊的工作——来自马里兰大学、清华大学等机构的研究团队提出了一种叫做

Make-An-Agent

的方法，本质上就是把策略网络参数生成当成一个条件去噪扩散过程来处理。噪声一层一层被削掉，策略网络的参数就这么被“雕”出来了。

基于条件扩散模型的策略生成：Make-An-Agent 方法

论文介绍

在理解 Make-An-Agent 之前，得先看看前人做过什么。该领域已有的工作大致分两条线：一条是参数生成，比如 Hypernetworks 和相关衍生研究。Hypertransformer 就是一个典型的代表，它根据任务样本为卷积网络的每一层生成权重，用的是监督或半监督的学习方式。另一条是所谓的学习如何学习，也就是元学习（meta-RL），目标是开发一个能适应新任务的通用策略。但无论是哪条线，都绕不开一个限制——策略调整和适应过程往往依赖真实的奖励信号来回调优。

而 Make-An-Agent 的做法，可以说走出了另一条路。研究团队找到了一个很聪明的解法：先训练一个自动编码器，把策略网络按层压缩成更小的潜在表示，然后用对比学习去捕捉长期轨迹与结果状态之间的关联。接下来，在这个学习到的行为嵌入上，用一个高效的扩散模型来生成策略参数，最后再用预训练的解码器把它还原成可用的策略网络。

说得再直白一点：你给模型一段来自部分训练的强化学习智能体的轨迹数据，它就能帮你“脑补”出一个完整的策略网络来。而这种生成出来的策略，是否真的靠谱？

为了验证这一点，团队在三个连续控制域上做了测试，涵盖了桌面操作任务和现实世界运动控制。结果显示，Make-An-Agent 生成的策略不仅在多任务设置中表现优异，在应对全新任务和抵抗环境随机性上，也都明显优于传统的多任务学习、元学习以及基于超网络的方法。就算你给的轨迹数据本身就有噪声，它依然能够生成高性能的策略——这个鲁棒性，确实够硬。

更有意思的是“walk-these-ways”这个现实场景测试。研究团队在 IsaacGym 上完成训练后，用 Make-An-Agent 从轨迹和预训练适应模块中生成 Actor 网络，然后直接部署到了与模拟环境完全不同的一台真实机器人上。每个现实世界的运动策略包含将近 5.1 万个参数，MetaWorld 和 Robosuite 每个任务也都收集了 1500 个策略网络——这些网络都是从 SAC 训练时的检查点里捞出来的，在测试成功率打到 1 之后每 5000 步保存一次。

不过话说回来，任何方法都不可能没有边界。这篇工作也坦诚地指出了当前的两个主要制约：一是策略网络本身的参数规模巨大，限制了更多样化的架构探索；二是参数扩散生成器的能力直接受限于参数自动编码器的表现。所以，未来的研究完全可以朝着更灵活的参数生成方向再迈一步——这扇门已经推开了一条缝。