来源:互联网 更新时间:2026-06-09 14:58
当前,自进化Agent的持续学习基本都靠成功轨迹、现成技能或者明确反馈。可在真实部署场景下,这些前提条件往往很难同时满足,结果就是Agent不断卡在原地,既没法积累经验,也没办法迭代自己的表现。
针对这个瓶颈,里海大学孙立超团队与合作者提出了一个新的框架——

结果显示,

图|自进化Agent技能的范式。
一句话概括:OpenSkill是一个面向开放世界的Agent技能框架。它把任务指令、执行环境、基础模型、工具访问权限、开放世界资源这些因素作为输入,整个流程拆成三步:

图|OpenSkill 框架概览。
为了验证OpenSkill到底行不行,团队从
OpenSkill在三个基准测试、两个目标Agent上,都拿到了最佳自动化表现。在SkillsBench上,它把Opus 4.6和GPT 5.2的总体通过率直接抬到了43.6%和42.1%,比最强基线高出了8.9和8.8个百分点,离人类参考上限只差1到3个百分点。更有意思的是,在Opus 4.6上,11个领域里有8个都达到了最佳或并列最佳的效果。

图|SkillsBench在11个领域的主要结果:展示了两个目标Agent在各领域上的平均奖励。
类似的优势也出现在另外两个基准上。在

图|两个目标Agent在SocialMaze和ScienceWorld上的平均奖励。
在技能迁移这部分,团队把Opus 4.6生成的技能,直接移植到了Haiku 4.5、Qwen 3Coder、DeepSeek V3、Mistral Large 3这4个更弱的模型上,完全没做额外适配。结果很清楚:

图|由Opus 4.6生成的技能迁移到其他模型后,在SkillsBench上获得的平均奖励。
在SocialMaze上,OpenSkill在3轮迭代时达到了最高的82.7%,但如果继续增加到5轮和10轮,效果反而往下走。消融结果也指出,开放世界检索和虚拟验证器,每一块单拎出来都能提升表现,但合在一起效果才最好。团队进一步发现,

图|SocialMaze上的消融实验。
当然,团队的坦诚也值得关注。开放世界知识源本身就可能存在噪声、过时甚至相互矛盾的信息,而虚拟任务也很难完全复现真实任务的复杂程度。尤其在深层语义验证和反作弊元验证这些环节上,目前的覆盖还比较有限。
另一个不得不提的问题:
展望未来,团队明确了三个大方向:提升知识源的可信度、增强虚拟任务对真实任务的覆盖能力、以及想办法降低整体成本与时延。毕竟,成本也是落地时绕不开的大山。
更多技术细节,可以参考原论文。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
蒙古上单是什么梗
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
如何在夸克浏览器中开启网页视频的倍速播放功能?
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
作家助手如何上传自制封面 作家助手如何设置小说的封面
抖音最火沙雕男生网名(精选100个)
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
有寓意的易经网名男生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc