来源:互联网 更新时间:2026-07-02 07:15
有趣的是,这篇论文的本意是展示自家模型的卓越能力,却“意外”地让AIDE这个开源Agent框架脱颖而出,引发了不少行业关注。Meta FAIR的研究科学家主任田渊栋随即发去贺电。
“这是一个绝佳例证,”伦敦大学学院教授、谷歌DeepMind高级研究员Tim Rocktäschel评论道,“展示了开放式自我完善的外部循环(AIDE)如何引导强大的内部循环(o1)实现惊人的能力飞跃。”
UCL名誉教授、谷歌DeepMind研究主任Edward Grefenstette认为,AIDE团队“构建的东西很大程度上支撑和影响了OpenAI的智能体路线图。”
DeepMind研究员、伦敦大学学院教授Sebastian Riedel则欣喜地表示:“我们亲眼目睹了‘Agent框架’在基础模型之上带来的巨大影响。”
这种不谋而合,恰恰说明了Agent框架在AI能力释放中的关键作用。
我们自己参加Kaggle,成绩恐怕都没它好。蒋铮尧推测,这可能与AIDE的设计范式——AI Function(AI函数)有关。
简单来说,AI Function范式就是将大问题拆分成一个个具体指令(类似“函数”),再用算法将它们串联起来。在这种范式下,每次喂给大模型(如o1-preview)的问题,会跟大模型在强化学习训练时做过的数理化题目比较像。换句话说,这种范式创造了一个与大模型训练过程高度一致的问题解决环境,模型能更好地利用训练中获得的知识和技能,从而提高解决问题的效率。
负责将这些具体指令串联起来的核心算法,叫做“解空间树搜索”(Solution Space Tree Search),包含三个主要组件:
**解决方案生成器(Solution Generator)**:负责提出新的解决方案,主要是创建起点。大模型接收一系列自然语言指令和背景资料后,会生成几个初始解决方案,也可以对现有方案进行修改,比如修复bug或引入改进。每个解决方案都包含了机器学习模型的实现和评估方法。
MLE-bench中,三种不同Agent框架的真实轨迹摘录
举个例子,在执行某个MLE-bench任务时,AIDE一开始设计了一个基于预训练EfficientNet-B0模型的二元分类器用于病理图像分类,这可以看作搜索的起点或初始解决方案。
**评估器(Evaluator)**:负责测试每个解决方案,将其性能与目标进行比较来完成评估,并将结果输出到命令行。对于单步任务,大模型有能力写出比较合格的评估代码。
**基础解决方案选择器(Base Solution Selector)**:负责从已探索的选项中选择最有前途的解决方案,作为下一轮优化的起点。这是一个写死的逻辑(一个数学运算),大模型只需客观判断哪一个方案的数值最好即可。这个组件对于引导搜索过程至关重要,因为它会将实验资源集中到最有希望的解决方案上。
回到刚才的例子,针对初始方案,AIDE在步骤2提出了改进——在测试集上使用测试时增强(TTA)来提高模型性能。到了步骤17,它又提出了另一个改进:用Focal Loss替换标准的二元交叉熵损失函数。从步骤2到17,暗示了中间还有许多其他优化步骤。虽然图片中没有直接显示评估结果,但我们可以推断,从使用EfficientNet-B0到引入TTA,再到更换损失函数,每一步都建立在前一步的结果评估基础上。
AIDE会要求大模型基于最佳方案继续改进,后者可能又生成几种不同的改进方向,周而复始。通过不断生成新的解决方案,AIDE逐步探索和优化解决方案空间,提高任务模型的性能,最终收敛到一个高度优化的解决方案。
纵观MLE-bench任务全程,一个明显的感觉是:通用框架就像急着提前交卷的学生,过早结束运行,有时在最初几分钟内就结束了。比如OpenHands只跑了2分钟(19步)就结束,不再继续提升。而AIDE会反复提示模型去提高得分,一直战斗到交卷铃声响(24小时),共生成和评估了30个不同解决方案或变体。
虽然在OpenAI的MLE-bench中,AIDE在16.9%的Kaggle任务上获得奖牌,但在今年4月的WecoAI技术报告中,AIDE的表现更优:在Kaggle数据科学比赛中的平均表现,击败了一半的人类参赛者!
来自4月的WecoAI技术报告,AIDE平均表现超过50%的Kaggle数据科学比赛的人类参与者,也优于传统的AutoML(H2O)、Langchain Agent和ChatGPT(在人工协助下)。
蒋铮尧解释了性能差异的原因:OpenAI更关注深度学习任务,但WecoAI选择的Kaggle比赛多为表格数据任务(如预测房价、信用卡欺诈、乘客是否在泰坦尼克号事故中生存),需要深度学习的任务很少,GPU太贵是重要原因。在这些常见机器学习任务,特别是表格数据任务上,花费两美元就可以得到一个非常不错的解决方案。使用gpt-4-turbo作为LLM时,推理成本甚至不到1美元——因为AIDE每次只提供最相关的信息给LLM,而不是将包含大量冗余的历史信息全都扔进去,极大节约了成本。
不过,OpenAI的MLE-bench也揭示出明显的局限性。比如,三个Agent都没能很好地考虑到机器的性能限制和时间限制。它们会发出一些超出机器承受能力的命令,导致电脑硬盘或内存吃不消,程序被系统强制关闭,任务被迫提前结束。另外,它们也很少表明所生成的代码会运行多长时间。
蒋铮尧认为,这些大模型并没有真的达到“Agent”的程度,在处理需要长期规划和多步骤交互的复杂任务时仍存在明显不足。AIDE代表了一种新的尝试,结合代码逻辑和神经网络,专门针对特定任务进行优化,更适合处理边界明确的问题。相比传统纯逻辑软件,AIDE能处理更广泛的问题,但“如果面对的问题越开放,逻辑部分就会越复杂,直到(程度复杂到)无法处理”。
蒋铮尧是Weco AI的联合创始人兼CEO,目前仍在UCL DARK实验室攻读博士学位。DARK实验室(全称UCL Deciding, Acting, and Reasoning with Knowledge Lab)隶属于伦敦大学学院人工智能中心,是一个专注于复杂开放环境中强化学习研究的前沿团队。在2024年国际机器学习会议(ICML)上,DARK摘得了两项最佳论文奖。公司联合创始人兼CTO吴宇翔在UCL人工智能中心NLP组攻读博士学位,之前聚焦于问答领域。创始工程师团队同样实力雄厚。
WecoAI成立于2023年5月。在此之前,吴宇翔和蒋铮尧开发了多智能体LLM框架ChatArena,引起了广泛关注。不过,开始创业后,团队意识到多智能体框架的商业化还为时尚早,且面临诸多挑战。他们重新思考方向,寻找既具商业前景又能激发团队兴趣的领域。经过深思熟虑,他们确定了“用AI智能体来制造AI”这个方向。
机器学习的进步主要源于有效的实验:针对特定任务开发方法,运行实验,评估结果,然后根据反馈改进方法。这个迭代过程很有挑战性,研究人员不仅需要具备广泛的先验知识,写出实用的代码,还要能准确解读实验结果并持续改进。作为工程师,他们天生就有自动化工作流程的冲动。那么,强大语言模型驱动的Agent能否有效执行这些复杂的机器学习实验呢?
考虑到成本,团队选择聚焦算力消耗较低的机器学习任务,特别是在表格模型和小规模神经网络方面。2024年4月,他们推出了AIDE,在Kaggle数据科学比赛中的平均表现战胜了50%的人类参赛者。
AIDE主要是团队研究方向的工作。蒋铮尧解释说,尽管o1-preview带来了一些进展,但目前技术还没有完全成熟,商业化仍面临诸多挑战。未来,AIDE将持续改进。“我们计划加强与社区的合作,包括提升性能和关注AI安全,”他表示,“我们也准备与对AI安全有担忧的各类机构和学界专家展开合作。”
必须警惕的是,这种能够递归自我提升的AI同时又非常危险。前不久,微软AI CEO Mustafa Suleyman公开表示,尽管目前还没有看到AI系统能够自我提升到导致“智能爆炸”的程度,但在未来5到10年,这种情况将会改变。各大AI公司和政府AI安全部门都在密切关注这一领域,构建公共benchmark可以帮助大家理解人类距离递归自我提升还有多远,并及时协调和应对。
除了科研线的AIDE,WecoAI还有一个产品线。他们很快会发布第一个公开测试的产品——AI Function Builder,它能根据自然语言的任务描述生成AI功能并提供API接口。用户只需通过一行代码或电子表格中的一个公式就能调用这些功能。
就在OpenAI公布MLE-bench的前几天,2024年诺贝尔化学奖被一分为二:一半共同授予谷歌DeepMind CEO Demis Hassabis和高级研究科学家John M. Jumper,以表彰他们“在蛋白质结构预测方面的贡献”。这一殊荣源自享誉全球的AlphaFold,也标志着诺贝尔奖对AI驱动科学发现这一新范式的高度肯定。据悉,学术界许多人将不得不重新编写研究经费申请,重新思考研究方向。
蒋铮尧认为,未来将会涌现更多这样的“低垂果实”,因为AI在推动科学研究方面的作用可能是根本性的。从工程师的角度来看,未来人们可能会将更多时间投入到创造性思维、跨领域思想的整合以及深度的逻辑推理上,而将那些重复性的试错过程交由AI来完成。WecoAI最想做的,就是培养“AI科学家”,让这些AI智能体能够自主地形成或融入人类的科学共同体。 archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
看韩漫的APP推荐 2026免费韩漫阅读软件大全
短剧《嫡女她是山大王》剧情介绍
俄罗斯最大yandex入口外贸日报直达链接
OpenAI 调整手机端 ChatGPT,提示词可提前选 AI 响应档位
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc