上海家具封边胶价格 让大模型“边看边改”,视觉分割准确率直接上涨9


泡沫板橡塑板专用胶

智能体时代上海家具封边胶价格,如何让视觉分割准确?

复旦、创智联出 RSAgent,给出新答案——让多模态大模型通过多轮工具调用生成准确掩码。

相关工作已入选 ICML 2026。

视觉分割,直是个"说起来简单,但做起来容易失手"的任务。

给模型张图、句话,让它把目标区域的像素圈出来——听起来直接,但旦目标含糊、被遮挡,或者需要理才能定位,次猜出正确的掩码就变得相当困难。

RSAgent 团队认为,现有法缺少的,不是强的分割头,而是"确认和纠错"的过程。

为此,他们出了 RSAgent 这个让多模态大模型通过多轮工具调用,完成文本引分割的智能体框架。

模型不再次输出 mask,而是先观察图像、进行理、调用视觉工具、读取反馈,再根据历史结果迭代修正,终生成可靠的准确掩码。

实验结果显示,RSAgent 在 ReasonSeg 测试集上的 gIoU 相比 Seg-Zero-7B 提升了 9.0 个百分点,在 RefCOCOg 数据集上取得了 81.5 的平均 cIoU,并生成了 5000 条以上的多轮理分割轨迹。

开放语义分割,难在哪里

多模态大语言模型(MLLM)已经能够描述图像、回答问题、理解物体关系,但真实视觉系统需要的不只是文字答案。

交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。

也就是说,模型须在"语义理解"和"准确掩码"之间完成可靠转换。

开放语义文本引分割的挑战在于,输入指令并不总是简单的类别名——

用户可能说"图中左侧正在被人拿起的物体",也可能说"找出湍急水流中保障个人安全的装备"。

前者需要空间关系,后者需要场景常识和用途理。

模型如果只进行次前向预测,就很难验证自己是否选对了目标。

此前路线的短板并不是"不能产生 mask ",而是"缺少确认与纠错过程"。

旦初定位偏离、点位提示落在背景、候选区域只覆盖局部上海家具封边胶价格,模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。

RSAgent 正是针对这痛点,把分割任务从静态预测变成动态交互。团队表示:

痛点不是单纯追求复杂的分割头,而是让模型在开放语义任务中具备"先判断、再行动、看反馈、再修正"的能力。

怎么解决?让 MLLM 学会 Reason and Act

RSAgent 的关键不是把 MLLM 直接改造成个 mask decoder,而是让它成为能够调度视觉工具的智能体。

模型在每轮接收原图、文本指令和历史观察,输出结构化理与 tool call;工具返回局部视图、候选掩码或 overlay;模型再基于这些反馈决定继续调用工具、调整提示,或者提交终答案。

下图为 LISA、Seg-Zero 与 RSAgent 的对比。RSAgent 通过多轮工具调用持续定位、观察和修正。

而 RSAgent 总体框架如下,包括多轮交互、工具调用、观察反馈、cold-start SFT 与 agentic RL。

具体技术模块及其作用如下:

在数据层面,RSAgent 通过自动成与严格筛选构建训练轨迹。

论文中 cold-start SFT 数据约包含 5K 条质量多轮理轨迹;RL 阶段使用约 2K 个 RL 示例,并额外加入 8K 个 RefCOCOg 训练样本,使模型在交互环境中学习回报的工具调用路径。

下图为数据管线。系统生成问题、成多轮轨迹并进行过滤,以获得质量训练样本。

团队表示,真正的关键不只是"调了工具":RSAgent 把理、工具、反馈与励闭为个训练体系。

模型既要理解目标,也要学会自适应地缩放、提示、分割和停止,终把开放语义理解落实为准确掩码。

具体来看,RSAgent 的次交互可以理解为四步循环:

Observation 读取图像与历史结果;上海家具封边胶价格

Thought 用自然语言分析当前候选区域是否满足指令;

Action 选择工具和像素提示;

Feedback 接收工具输出并写入上下文。

这个循环让模型不再依赖单次判断,保温护角专用胶而是具备逐步验证的机制。

这种机制尤其适关系型、属型和隐含理型指令。

例如目标可能很小、被遮挡,或需要根据动作、用途和相对位置来判定。

RSAgent 可以先粗定位,再查看局部区域,随后依据候选掩码的偏差重新指定点或框。

相比次预测,它多了个可审查的中间过程。

训练策略上,cold-start SFT 解决"会不会按格式工作"的问题,让模型掌握工具调用语法和基本反思流程;agentic RL 解决"怎样做得好"的问题,通过励信号优化多轮路径。

二者组,使 RSAgent 既能稳定输出结构化结果,也能在复杂开放语义样本上学习优决策。

实验结果:ReasonSeg 与 RefCOCOg 上取得先表现

奥力斯    万能胶生产厂家    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

实验使用 Qwen2.5-VL-7B-Instruct 作为基础模型,SAM2-large 作为分割工具。

团队在 RefCOCO 系列和 ReasonSeg 上进行系统评测,并与传统视觉语言分割器、单次 MLLM 分割法、显式 CoT/RL 分割法和多轮工具调用 agent 等多类法比较。

下图能够说明,RSAgent 在 RES 和 ReasonSeg 基准上取得先表现。

具体评测结果如下:

在 ReasonSeg test 上上海家具封边胶价格,RSAgent 达到 66.5 gIoU,相比 Seg-Zero-7B 的 57.5 提升 9.0 个百分点;

在 RefCOCOg 上,RSAgent 达到约 81.5 平均 cIoU,test split 为 81.8。

对于依赖开放语义理的目标分割任务,这说明模型不仅能理解描述,还能稳地把理解转化为准确掩码。

消融实验显示,提升并非来自单模块。

未训练的 tool-agent 在 ReasonSeg test 上只有 30.1 cIoU;加入 cold-start SFT 后提升至 55.4;仅 RL 为 54.3;完整的 cold-start SFT+RL 达到 57.9。

这表明,先让模型学会规范工具调用,再通过强化学习优化长程决策,是 RSAgent 成立的关键。

下图为大工具调用轮数消融。适当增加轮数可提升表现,但过长上下文可能带来冗余与不稳定。

励设计同样关键。

移除 final reward、process reward 或 format reward 都会造成能下降;

其中去掉 final reward 后,ReasonSeg test 从 57.9 降至 48.3,说明终掩码质量仍是核心目标。

process reward 则鼓励模型在中间步骤持续改进,而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent 的价值不只是刷新指标。

重要的是,它展示了条从"看图问答"走向"视觉行动"的路径:

模型可以围绕文本目标持续观察、调用工具、接受反馈、修正假设,并把终判断落实到图像像素。

这类能力对交互式视觉系统具有通用意义。

对于数据标注,它有望减少人工反复试错;

对于机器人感知,它让模型在执行前重新确认目标区域;

对于设计编辑和内容生产,它可以把自然语言意图转化为稳定的可编辑区域;

对于科学图像分析,它提供了可回看、可复核的中间过程。

从大的趋势看,RSAgent 把开放语义理解、工具调用和像素执行连接起来。

它说明多模态大模型不停留在"回答图像问题",也可以在视觉空间中主动探索、试错和修正。

这个向将视觉智能体进到接近真实任务的形态。言以蔽之:

RSAgent 证明了多模态大模型可以从"结文本与图像内容"进步走向"在像素空间中理、行动和自我修正"。

后介绍下论文团队。

作者团队来自复旦大学、上海创智学院、上海交通大学等单位,论文共同作为何星旗、张钰杰。

何星旗为复旦大学年硕士生,研究向为 Vision-Language Model Reasoning、Reinforcement Learning。

张钰杰为上海创智学院、复旦大学联培养博士生,主要研究向为 Vision-Language Model Reasoning、Reinforcement Learning 与 Large Language Models。

论文:https://arxiv.org/abs/2512.24023

GitHub:https://github.com/Nicola777-ai/RSAgent

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生  � �

感兴趣的小伙伴欢迎关注 � �  了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:管道保温施工     塑料挤出设备     预应力钢绞线    玻璃棉厂家    保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定上海家具封边胶价格,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。