您的位置：首页 > > 教程攻略 > ai资讯 >让大模型“边看边改”，视觉分割准确率直接上涨9%

让大模型“边看边改”，视觉分割准确率直接上涨9%

来源:互联网 更新时间:2026-05-28 10:01

视觉分割，这个任务听起来简单直接：给模型一张图、一句话，让它把目标区域的像素圈出来。但在实际应用中，一旦目标表述模糊、物体被遮挡，或者需要结合常识推理才能定位，让模型一次性“猜”出准确的掩码就变得相当困难。

最近，来自复旦大学和上海创智学院的研究团队给出了一个新的思路。他们提出的RSAgent框架，让多模态大模型通过多轮工具调用来生成更准确的掩码，相关工作已入选ICML 2026。

团队的核心观点很明确：现有方法的主要短板，或许并不在于需要一个更强大的分割头，而在于缺少一个“确认和纠错”的过程。RSAgent正是为此而生，它将分割任务从一个静态的预测问题，转变为一个动态的、交互式的智能体决策过程。

模型不再追求一次性输出最终答案，而是先观察图像、进行推理、调用视觉工具、读取反馈，再根据历史结果迭代修正，最终生成更可靠的掩码。

实验数据也支持了这一思路。在需要复杂推理的ReasonSeg测试集上，RSAgent的gIoU相比Seg-Zero-7B提升了9.0个百分点；在RefCOCOg数据集上，平均cIoU达到了81.5%。

开放语义分割，难在哪里

如今的多模态大语言模型（MLLM）已经能够出色地描述图像、回答问题、理解物体关系。然而，许多真实的视觉系统需求不止于文字答案。无论是交互式标注、机器人感知，还是设计编辑、工业质检，都要求模型能将语言理解精准地“落地”到具体的像素区域。

这其中的核心挑战在于，模型必须在“语义理解”和“准确掩码”之间完成可靠的转换。开放语义分割的指令往往不是简单的类别名词，比如“图中左侧正在被人拿起的物体”，或者“找出湍急水流中保障个人安全的装备”。前者需要理解空间关系，后者则需要场景常识和用途推理。

如果模型只进行一次前向预测，就很难验证自己是否选对了目标。问题的关键或许不在于模型“不能产生掩码”，而在于它“缺少确认与纠错的过程”。一旦初始定位出现偏差，模型往往没有机会重新观察、调整策略。

RSAgent正是瞄准了这一痛点。正如团队所言，其目标不是单纯追求更复杂的分割头，而是让模型在开放语义任务中，具备“先判断、再行动、看反馈、再修正”的闭环能力。

怎么解决？让MLLM学会Reason and Act

RSAgent的解决方案颇具巧思：它并非将MLLM直接改造成一个掩码解码器，而是将其塑造成一个能够调度视觉工具的智能体。在每一轮交互中，模型接收原图、文本指令和历史观察，输出结构化的推理和工具调用指令；工具则返回局部视图、候选掩码等反馈；模型再基于这些反馈决定是继续调用工具、调整提示，还是提交最终答案。

下图展示了RSAgent的总体框架，其核心在于多轮交互、工具调用、观察反馈，并通过冷启动监督微调（cold-start SFT）和智能体强化学习（agentic RL）进行训练。

具体的技术模块及其作用如下图所示：

在数据构建层面，RSAgent通过自动合成与严格筛选来构建高质量的训练轨迹。论文中用于冷启动SFT的数据包含了约5K条高质量多轮推理轨迹；在RL阶段，则使用了约2K个RL示例，并额外加入了8K个RefCOCOg训练样本，以帮助模型在交互环境中学习回报更高的工具调用路径。

可以说，RSAgent的真正价值在于它将推理、工具、反馈与奖励闭合为一个完整的训练体系。模型不仅要理解目标是什么，还要学会自适应地缩放视图、提供提示、执行分割并决定何时停止。

具体到一次交互流程，可以理解为四步循环：观察（Observation）、思考（Thought）、行动（Action）、反馈（Feedback）。这个循环让模型摆脱了对单次判断的依赖，建立起逐步验证的机制。这对于处理那些涉及复杂关系、属性或隐含推理的指令尤其有效。例如，当目标物体很小、被遮挡，或需要根据动作、用途来定位时，RSAgent可以先进行粗定位，再查看局部区域，然后依据候选掩码的偏差重新指定点或框，从而多了一个可审查的中间过程。

在训练策略上，冷启动SFT解决了模型“会不会按格式工作”的问题，让其掌握工具调用的语法和基本反思流程；而智能体RL则解决了“怎样做得更好”的问题，通过奖励信号来优化多轮决策路径。两者结合，使得RSAgent既能稳定输出结构化结果，也能在复杂的开放语义样本上学习更优的决策。

实验结果：ReasonSeg与RefCOCOg上取得领先表现

在实验中，团队以Qwen2.5-VL-7B-Instruct作为基础模型，SAM2-large作为分割工具，在RefCOCO系列和ReasonSeg数据集上进行了系统评测。

下图展示了RSAgent在RES和ReasonSeg基准上取得的领先表现。

具体的评测结果如下：

在ReasonSeg测试集上，RSAgent达到了66.5%的gIoU，相比Seg-Zero-7B的57.5%提升了9.0个百分点；在RefCOCOg上，平均cIoU达到了约81.5%。这些结果表明，对于依赖开放语义推理的分割任务，该模型不仅能理解描述，还能更稳健地将理解转化为准确的像素级掩码。

消融实验进一步揭示了性能提升的来源，它并非来自单一模块。未经训练的智能体在ReasonSeg测试集上cIoU仅为30.1；加入冷启动SFT后提升至55.4；仅使用RL为54.3；而完整的SFT+RL组合则达到了57.9。这清晰地表明，先让模型学会规范的工具调用，再通过强化学习优化长程决策，是RSAgent成功的关键。

下图是关于最大工具调用轮数的消融实验。结果显示，适当增加交互轮数可以提升表现，但过长的上下文也可能带来冗余和不稳定。

奖励函数的设计同样至关重要。实验发现，移除最终奖励（final reward）、过程奖励（process reward）或格式奖励（format reward）都会导致性能下降。其中，去掉最终奖励后，ReasonSeg测试集上的性能从57.9大幅降至48.3，这说明最终掩码的质量仍然是核心优化目标。而过程奖励则鼓励模型在中间步骤持续改进，而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent的价值远不止于刷新几个基准测试的指标。更重要的是，它展示了一条从“看图问答”迈向“视觉行动”的可行路径：模型可以围绕文本目标，持续观察、调用工具、接受反馈、修正假设，并将最终判断落实到图像像素上。

这种能力对于构建交互式视觉系统具有普遍意义：

在数据标注领域，它有望减少人工反复试错的工作量；
对于机器人感知，它让模型能在执行操作前重新确认目标区域；
在设计编辑和内容生产中，它可以将自然语言意图转化为更稳定、可编辑的区域；
在科学图像分析中，它提供了可回看、可复核的中间推理过程。

从更宏观的趋势来看，RSAgent将开放语义理解、工具调用和像素级执行连接了起来。它表明，多模态大模型不必仅仅停留在“回答关于图像的问题”这一层面，而是可以在视觉空间中主动探索、试错和修正。这个方向将视觉智能体推向了更接近真实任务需求的形态。

一言以蔽之，RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。

这项工作的作者团队来自复旦大学、上海创智学院、上海交通大学等单位。论文共同第一作者为何星旗与张钰杰。何星旗为复旦大学一年级硕士生，研究方向为视觉语言模型推理与强化学习；张钰杰为上海创智学院与复旦大学联合培养博士生，主要研究方向为视觉语言模型推理、强化学习与大语言模型。

论文地址：https://arxiv.org/abs/2512.24023

项目代码：https://github.com/Nicola777-ai/RSAgent

让大模型“边看边改”，视觉分割准确率直接上涨9%

开放语义分割，难在哪里

开放语义分割，难在哪里

怎么解决？让MLLM学会Reason and Act

怎么解决？让MLLM学会Reason and Act

实验结果：ReasonSeg与RefCOCOg上取得领先表现

实验结果：ReasonSeg与RefCOCOg上取得领先表现

让视觉大模型进入可验证的像素行动空间

让视觉大模型进入可验证的像素行动空间

热门资讯

热门手游

相关攻略

热门专题