来源:互联网 更新时间:2026-07-02 13:02
说一个核心判断:科学智能体的未来,可能不在于它“知道”多少,而在于它“做到”什么。
这个判断,来自 DeepMind 联合创始人、诺贝尔化学奖得主 Demis Hassabis 一直以来的观点。他把 AI 看作推动知识前沿的关键工具——能处理复杂数据、挖掘隐藏模式,甚至参与更深层的科学探索。但问题是,当前的大模型真的能胜任这活儿吗?

要走向 Hassabis 设想的目标,光会答题可不够。科学智能体在真实场景里,得干这些事:检索数据库、调用专业软件、执行计算、分析结果,还得根据环境反馈不断修正方向。科学推理,远不止发生在语言空间里。它更发生在工具调用、环境反馈和错误恢复的循环中。
这就给评测提了新要求。评估一个科学智能体,不能只看它答得对不对,要看它在复杂工具环境里,能不能稳定、高效地完成多步任务。
正是出于这个背景,复旦大学 NLP 实验室推出了
SciAgentGym 的核心价值,是给 Agent 提供了一个可交互、可执行、可反馈的科学环境。这个环境由四类基础设施组成:专业工具库、文件系统、科学数据库和 Python 解释器。模型在任务过程中,可以调用科学工具、执行代码、查询数据库,也能读取环境返回的结果、报错信息和中间文件。每个任务都拥有独立的工具注册、文件系统和执行历史,这意味模型确实进入了一个科学工作空间。
为了让环境承载复杂科学任务,设计上强调了三个原则。
第一个是
第二个是
第三个是
简单说,SciAgentGym 的设计目标很明确:为科学智能体搭建一个能承载真实工作流的执行环境。在这个环境里,模型要理解工具依赖、管理中间状态、利用环境反馈,把多个步骤组织成一条连续的流程。
(图:SciAgentGym 总体框架。左侧为科学环境与工具系统,右侧展示 SciAgentBench 评测、Agent Interface 交互和 SciForge 训练流程。)
环境搭好了,下一个关键问题就是:当前的大模型,在复杂科学工作流里到底行不行?
为了区分复杂度,任务被划分为三个层级。
在整个 SciAgentBench 里,L2 和 L3 总共占了
评测指标用了两个:
(图:在 SciAgentBench 下的测试结果。)
实验结果显示,工具确实能帮上忙。总体看,模型接入工具后,平均成功率从
但更值得关注的是,一旦进入长流程任务,性能明显下降。以 GPT-5 为例,带工具时整体成功率为
这意味着,当前模型已经具备一定的工具使用能力,但稳定完成长程工作流,依然非常困难。短流程只需要几次正确决策,长流程则要连续完成多个环节:理解问题、选工具、设参数、读反馈、换格式、继续执行。任何一个环节出错,都可能影响全局。
(图:SciAgentBench 下的模型行为分析。进一步从工具调用效率、反馈利用能力和长程错误恢复三个角度分析。结果显示,瓶颈不在于“会不会调用工具”,而在于能否在多步执行中理解反馈、调整路线、持续推进。)
论文还发现了一个有意思的现象:工具调用次数多,不代表模型更会使用工具。有些模型频繁调用,成功率却不理想。原因很简单:它们没真正理解反馈,而是在报错后反复做相似操作,或机械地调参数。相比之下,一些更强的模型调用次数更少,但能更有效地利用中间结果,快速判断下一步。
这也揭示了一个关键能力:有效利用环境反馈。在真实科学工作流里,反馈承载着重要信息。报错可能显示输入格式不对、参数缺失,或工具选择不合适;中间结果也可能揭示当前路线是否有效。模型要是读不懂这些,就容易在长流程里反复试错,甚至陷入死循环。
结论很清晰:虽然大模型已具备一定能力,但距离稳定、可靠地完成真实科学工作流,还有明显差距。
既然评测出了差距,下一步就是怎么补上。论文提出的
基本思路很直接:科学智能体要学习的,不只是最终答案,还包括完成任务的过程。一条真实工作流,往往包含多个环节:选工具、调用、读中间结果、理解反馈、出错时调整。围绕这一点,SciForge 从工具之间的输入输出关系出发,构造可能的工作流,并在 SciAgentGym 环境里实际运行。能执行并产生有效结果的轨迹,就保留下来作为训练数据。
这些轨迹不光包含顺利完成的流程,还有一部分错误与修正过程。工具调用失败、参数设置不当、输入格式不匹配……这些都会以环境反馈的形式出现在轨迹里。模型从这些数据里学到的,不仅是一条理想化的执行路径,更是如何根据反馈调整后续操作。
实验效果怎么样?基于 SciForge 数据训练后,
(图:SciForge 训练效果。随着轨迹数量增加,模型在工具增强任务中的表现持续提升;缺少错误恢复过程或使用非科学工具数据时,效果会受影响。)
这个结果说明,科学工具调用的过程数据,价值巨大。可执行轨迹给模型提供了关于工具依赖、数据精度、反馈利用等一系列经验,让它在训练中更接近真实科学任务的结构。
斯坦福研究者 Surya Ganguli 在谈到 AI 与科学发现时说过,AI 会推动新发现,而科学应用对严谨性的要求,也会反过来推动更好的 AI。放到科学智能体的语境里,这点尤其值得关注。真正进入科研场景,模型面对的是海量数据和无限开放的过程。面向开放式科学发现,让模型先在具体工作流里学会可靠执行,再逐步提升参与复杂研究的能力,可能是一条很有潜力的路。可以期待,未来的 AI 科学家会在这类交互中逐渐成形。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
俄罗斯最大yandex入口外贸日报直达链接
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
腾讯元宝怎么用来分析股票基金的基本面信息?
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
二次元男生网名可爱(精选100个)
wallpaper壁纸声音怎么开启
国际贵金属走低,现货黄金价格跌0.49%
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
短剧《嫡女她是山大王》剧情介绍
新浪人工智能热点小时报丨2026年06月20日02时_今日实时人工智能热点速递
Bubbly无法连接服务器修复方法
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc