热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >AutoResearch时代,47个没有标准答案的任务成了Agent能力必测榜

AutoResearch时代,47个没有标准答案的任务成了Agent能力必测榜

来源:互联网 更新时间:2026-06-07 14:55

如果把AI扔进一个

没有标准答案

的工程现场,它还能活下来吗?

长久以来,AI智能体(Agent)看似无所不能,但细究起来,多数时候只是在已知的知识库里“翻找记忆”。它们擅长回答有明确对错的问题,就像考场上的优等生。

然而,真实的工程世界要残酷得多。水下机器人的姿态稳定性、动力电池的快充析锂边界、量子线路的噪声控制……这些问题没有教科书式的“满分答案”,只有永无止境的

“逼近极限的优化”

最近,

Einsia AI旗下Na vers lab

发布的一项名为

Frontier-Eng Bench

的智能体基准测试,正式撕掉了AI“做题家”的标签。它不再考那些陈旧的编程题,而是给AI搭建了一套完整的“工程闭环”:提出初步方案、接入专业仿真器、接收报错反馈、修改参数代码、重新运行验证。

面对

47个

横跨多个学科的硬核任务,AI必须像一位资深工程师那样,在功耗、安全、性能构成的“不可能三角”中,艰难地寻找那个最优的平衡点。

这不仅仅是一个测试集,更像是一场关于智能体如何“进化”的预演。当AI开始学会在持续反馈中自我修正,那个由人类设定目标、AI则24小时不间断迭代优化的

自动化研究(Auto Research)

时代,或许比我们预想的来得更早。

AI开始干“硬活”了

过去的大模型,更像一个知识渊博的“超级学霸”。你提出问题,它从海量的训练数据中检索、拼接,给出一个看起来合理的答案。这种模式的本质,更像是在玩一场复杂的“文字接龙”,而非解决一个真实的、动态的工程问题。

但Frontier-Eng Bench的出现,改变了游戏规则。它迫使AI去干

“工程优化”

这种硬核的脏活累活。流程变成了:AI提出方案 → 接入仿真器(simulator)跑实验 → 获取性能数据和报错反馈 → 修改参数或代码 → 再次运行验证,如此循环,直至性能无法继续提升。

在这个闭环里,AI的身份发生了质变:

  • 想让水下机器人更稳定?AI得自己去调整控制器的参数。
  • 想把机械臂的运动速度再提升一点?AI必须亲自运行动力学仿真,观察结果。

某种程度上,AI已经脱离了单纯的语义理解层面,开始像一个

职业工程师

那样,在真实的环境反馈中进行持续的、目标驱动的优化。

Frontier-Eng Bench最有趣的地方在于,它的评价标准不是“答对了没有”,而是

“AI能不能持续变强”

。因为真实的工程优化,从来不是一道选择题,没有那个唯一的、等待被选中的标准答案。

以电池快充优化为例,目标听起来很直接——充电速度越快越好。但现实约束极为严苛:温度不能超标、电压必须稳定、电池寿命衰减要可控,还要极力避免析锂等安全隐患。AI必须在这些相互掣肘的条件中,精准地踩中那个微妙的性能平衡点。

这意味着,任何取巧的“刷题”策略在这里都行不通。AI必须在长周期的反馈中,展现出持续进化的耐力和寻找突破口的智慧。

那么,AI到底能不能在真实环境里做这种长期优化呢?从评测结果看,

GPT-4

在整体表现上最为稳健。但话说回来,距离彻底“通关”这个基准测试,现有的AI模型还有很长的路要走。

Auto Research进入“迭代优化”时代

研究团队在论文中提出了一个深刻的观点:真正高级的智能,本质上都依赖于长期的反馈闭环。

真正高级的智能,本质上都依赖长期反馈闭环。

这很好理解。AlphaGo能够击败人类顶尖棋手,关键不在于它记住了多少棋谱,而在于其每一步决策背后,都伴随着

海量的自我模拟与即时反馈

。真正的科学研究也是如此,顶级实验室的突破很少依赖于一次偶然的灵感,更多是“提出假设-实验验证-分析结果-调整方向”这个循环的无数次重复。

工程优化更是同理。做出第一个能用的版本往往不难,真正的挑战在于最后那1%甚至0.1%的性能提升,那才是区分平庸与卓越的关键。

Frontier-Eng Bench的意义,就在于它首次开始系统性地测试AI的“迭代优化能力”,并从中总结出了两条近乎残酷的进化规律。

第一个规律是:越往后,提升越难。

论文发现,智能体的改进频率和幅度都呈现出明显的幂律衰减趋势:改进频率大致与迭代轮数成反比,而改进幅度则与改进次数成反比。

  • 改进频率 ∝ 1/迭代轮数
  • 改进幅度 ∝ 1/改进次数

简单来说,就是前期进步神速,能快速摘取“低垂的果实”;但越接近性能瓶颈,每一点微小的提升都需要付出巨大的努力,改进会变得越来越慢、越来越小。这完美复现了真实研发过程中的“收益递减”现象。

那么,一个很自然的想法是:多开辟几条优化路径并行探索,用“宽度”来换取“深度”,会不会更有效率?答案藏在第二个规律里。

第二个规律:宽度有用,但深度不可或缺。

并行多条探索链确实有助于避免陷入局部最优,但在总计算预算固定的前提下,每多开一条链,就意味着每条链所能进行的深度迭代会被摊薄。而很多工程上的突破,恰恰需要在一个方向上持续积累、不断微调,才能产生结构性的质变,并非靠简单的“多试几次”就能实现。

这其实为下一代智能体的发展指明了方向:未来的AI不应再是那个追求“一次给出完美答案”的模型,而应该成为一个

能够在长周期反馈中持续迭代、自我进化的自治系统

AI工程师,可能真的要来了

这项研究更深远的启示在于,它初步勾勒出了一套

开始接近真实工程循环的AI系统框架

试想一下,当这样的AI能力接入工业软件、高保真仿真环境、CAD设计工具、芯片EDA平台或科学计算软件时,一场生产力模式的剧变将呼之欲出。

未来的研发实验室里,可能会出现一种全新的分工模式:人类研究员负责提出宏观方向和关键目标,比如“将这个部件的能耗降低30%”、“在保证精度前提下压缩模型的前向计算开销”、“将机器人控制的稳定性再提升一个量级”、“让量子线路的保真度无限逼近理论极限”。

而AI则负责“死磕路径”,围绕这些既定目标,不知疲倦地运行仿真实验、读取验证器(verifier)和仿真器(simulator)的反馈、修改参数与代码,24小时不间断地迭代优化。

这种进化逻辑,使得AI正在摆脱“辅助工具”的单一身份,开始像一个真正的、协作的工程团队那样,去系统性解决复杂问题。

当然,Frontier-Eng Bench所揭示的问题也同样直接:当AI初步学会了“长期优化”,它距离我们理想中那个具备真正工程智能的伙伴,究竟还有多远?这既是挑战,也是通往下一个时代的入口。

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页:https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc