来源:互联网 更新时间:2026-05-28 10:01
视觉分割,这个任务听起来简单直接:给模型一张图、一句话,让它把目标区域的像素圈出来。但在实际应用中,一旦目标表述模糊、物体被遮挡,或者需要结合常识推理才能定位,让模型一次性“猜”出准确的掩码就变得相当困难。
最近,来自复旦大学和上海创智学院的研究团队给出了一个新的思路。他们提出的RSAgent框架,让多模态大模型通过多轮工具调用来生成更准确的掩码,相关工作已入选ICML 2026。

团队的核心观点很明确:现有方法的主要短板,或许并不在于需要一个更强大的分割头,而在于缺少一个“确认和纠错”的过程。RSAgent正是为此而生,它将分割任务从一个静态的预测问题,转变为一个动态的、交互式的智能体决策过程。
模型不再追求一次性输出最终答案,而是先观察图像、进行推理、调用视觉工具、读取反馈,再根据历史结果迭代修正,最终生成更可靠的掩码。
实验数据也支持了这一思路。在需要复杂推理的ReasonSeg测试集上,RSAgent的gIoU相比Seg-Zero-7B提升了9.0个百分点;在RefCOCOg数据集上,平均cIoU达到了81.5%。
如今的多模态大语言模型(MLLM)已经能够出色地描述图像、回答问题、理解物体关系。然而,许多真实的视觉系统需求不止于文字答案。无论是交互式标注、机器人感知,还是设计编辑、工业质检,都要求模型能将语言理解精准地“落地”到具体的像素区域。
这其中的核心挑战在于,模型必须在“语义理解”和“准确掩码”之间完成可靠的转换。开放语义分割的指令往往不是简单的类别名词,比如“图中左侧正在被人拿起的物体”,或者“找出湍急水流中保障个人安全的装备”。前者需要理解空间关系,后者则需要场景常识和用途推理。
如果模型只进行一次前向预测,就很难验证自己是否选对了目标。问题的关键或许不在于模型“不能产生掩码”,而在于它“缺少确认与纠错的过程”。一旦初始定位出现偏差,模型往往没有机会重新观察、调整策略。
RSAgent正是瞄准了这一痛点。正如团队所言,其目标不是单纯追求更复杂的分割头,而是让模型在开放语义任务中,具备“先判断、再行动、看反馈、再修正”的闭环能力。
RSAgent的解决方案颇具巧思:它并非将MLLM直接改造成一个掩码解码器,而是将其塑造成一个能够调度视觉工具的智能体。在每一轮交互中,模型接收原图、文本指令和历史观察,输出结构化的推理和工具调用指令;工具则返回局部视图、候选掩码等反馈;模型再基于这些反馈决定是继续调用工具、调整提示,还是提交最终答案。

下图展示了RSAgent的总体框架,其核心在于多轮交互、工具调用、观察反馈,并通过冷启动监督微调(cold-start SFT)和智能体强化学习(agentic RL)进行训练。

具体的技术模块及其作用如下图所示:

在数据构建层面,RSAgent通过自动合成与严格筛选来构建高质量的训练轨迹。论文中用于冷启动SFT的数据包含了约5K条高质量多轮推理轨迹;在RL阶段,则使用了约2K个RL示例,并额外加入了8K个RefCOCOg训练样本,以帮助模型在交互环境中学习回报更高的工具调用路径。

可以说,RSAgent的真正价值在于它将推理、工具、反馈与奖励闭合为一个完整的训练体系。模型不仅要理解目标是什么,还要学会自适应地缩放视图、提供提示、执行分割并决定何时停止。
具体到一次交互流程,可以理解为四步循环:观察(Observation)、思考(Thought)、行动(Action)、反馈(Feedback)。这个循环让模型摆脱了对单次判断的依赖,建立起逐步验证的机制。这对于处理那些涉及复杂关系、属性或隐含推理的指令尤其有效。例如,当目标物体很小、被遮挡,或需要根据动作、用途来定位时,RSAgent可以先进行粗定位,再查看局部区域,然后依据候选掩码的偏差重新指定点或框,从而多了一个可审查的中间过程。
在训练策略上,冷启动SFT解决了模型“会不会按格式工作”的问题,让其掌握工具调用的语法和基本反思流程;而智能体RL则解决了“怎样做得更好”的问题,通过奖励信号来优化多轮决策路径。两者结合,使得RSAgent既能稳定输出结构化结果,也能在复杂的开放语义样本上学习更优的决策。
在实验中,团队以Qwen2.5-VL-7B-Instruct作为基础模型,SAM2-large作为分割工具,在RefCOCO系列和ReasonSeg数据集上进行了系统评测。
下图展示了RSAgent在RES和ReasonSeg基准上取得的领先表现。

具体的评测结果如下:

在ReasonSeg测试集上,RSAgent达到了66.5%的gIoU,相比Seg-Zero-7B的57.5%提升了9.0个百分点;在RefCOCOg上,平均cIoU达到了约81.5%。这些结果表明,对于依赖开放语义推理的分割任务,该模型不仅能理解描述,还能更稳健地将理解转化为准确的像素级掩码。
消融实验进一步揭示了性能提升的来源,它并非来自单一模块。未经训练的智能体在ReasonSeg测试集上cIoU仅为30.1;加入冷启动SFT后提升至55.4;仅使用RL为54.3;而完整的SFT+RL组合则达到了57.9。这清晰地表明,先让模型学会规范的工具调用,再通过强化学习优化长程决策,是RSAgent成功的关键。
下图是关于最大工具调用轮数的消融实验。结果显示,适当增加交互轮数可以提升表现,但过长的上下文也可能带来冗余和不稳定。

奖励函数的设计同样至关重要。实验发现,移除最终奖励(final reward)、过程奖励(process reward)或格式奖励(format reward)都会导致性能下降。其中,去掉最终奖励后,ReasonSeg测试集上的性能从57.9大幅降至48.3,这说明最终掩码的质量仍然是核心优化目标。而过程奖励则鼓励模型在中间步骤持续改进,而不是盲目增加工具调用次数。
RSAgent的价值远不止于刷新几个基准测试的指标。更重要的是,它展示了一条从“看图问答”迈向“视觉行动”的可行路径:模型可以围绕文本目标,持续观察、调用工具、接受反馈、修正假设,并将最终判断落实到图像像素上。
这种能力对于构建交互式视觉系统具有普遍意义:
从更宏观的趋势来看,RSAgent将开放语义理解、工具调用和像素级执行连接了起来。它表明,多模态大模型不必仅仅停留在“回答关于图像的问题”这一层面,而是可以在视觉空间中主动探索、试错和修正。这个方向将视觉智能体推向了更接近真实任务需求的形态。
一言以蔽之,RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。
这项工作的作者团队来自复旦大学、上海创智学院、上海交通大学等单位。论文共同第一作者为何星旗与张钰杰。何星旗为复旦大学一年级硕士生,研究方向为视觉语言模型推理与强化学习;张钰杰为上海创智学院与复旦大学联合培养博士生,主要研究方向为视觉语言模型推理、强化学习与大语言模型。
论文地址:https://arxiv.org/abs/2512.24023
项目代码:https://github.com/Nicola777-ai/RSAgent
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
无尽花界时装合辑
免费影视剧APP推荐
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc