跳转至

Guideline-Consistent Segmentation via Multi-Agent Refinement

会议: AAAI 2026
arXiv: 2509.04687
代码: 项目页面
领域: 分割
关键词: 指南一致性分割, 多智能体, VLM, 强化学习, 免训练框架

一句话总结

提出一个免训练的多智能体框架,通过 Worker(分割执行)和 Supervisor(指南验证)的迭代循环,配合 RL 自适应停止策略,实现严格遵循复杂文本指南的语义分割,在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。

研究背景与动机

语义分割不仅需要精确的像素级掩码,更需要严格遵循文本定义的标注规则(guideline)。然而:

  1. 标注指南复杂冗长:如 Waymo 的行人指南包含十多条规则——"骑滑板车的人算行人"、"排除人体模型/雕像/反射"、"持有小于2m物品的行人算单一标签"等
  2. 现有方法失败于长文本:LISA、GroundedSAM 等开放词汇分割方法在短语提示下表现良好,但面对段落级指南时性能急剧下降(LISA-7B 从43.42 gIoU降至23.41)
  3. 人工标注也不一致:Waymo官方GT本身存在违反自身指南的情况(同一场景不同时间戳标注不一致)
  4. 重训练不可行:标注规则可能更新,依赖特定任务重训练不实际

核心目标:设计一个免训练框架,能处理复杂段落级指南,通过迭代验证确保分割结果的指南一致性。

方法详解

整体框架

流程:输入图像 + 文本指南 → 上下文构建(筛选相关规则)→ Worker-Supervisor 迭代循环(分割→验证→修正)→ 自适应停止控制器决定终止 → 输出指南一致的分割。

核心组件: - Context Construction:包含 Enricher(场景描述)+ Retriever(指南检索)+ Smart Crop - Worker:VLM驱动的检测+SAM分割 - Supervisor:双Agent评估(Agent1-评估/Agent2-框生成)+ SigLIP验证 - AiRC:RL驱动的自适应迭代控制器

关键设计

上下文构建

不同图像只需相关的子集规则,全部输入会造成信息过载:

  • Enricher:用 Gemma3-4B 轻量多模态模型生成图像描述,结合提示词和分辨率构建查询 \(Q = \{P, <caption>, H \times W\}\)
  • Retriever:用 SentenceTransformer 将查询编码为向量,在 FAISS 索引中检索 top-k=8 条最相关指南
  • Smart Crop:将图像按对象分布切分为两个区域,避免切割物体,平衡左右对象数量。先0.8×降采样通过OWLv2获取粗略框,再基于空间分布确定最优切分线

Worker-Supervisor 迭代循环

Worker: - 初始化阶段:VLM(Gemini-2.5-flash)检测目标类别的边界框,分配唯一ID,传给冻结的SAM2.1生成掩码 - 迭代阶段:接收Supervisor反馈后修正——补充遗漏物体、删除误检、调整不完美框

Supervisor(双Agent设计): - Agent 1 (Supervisor_eval):访问图像、Worker输出和相关指南,识别三类问题:(i)遗漏物体,(ii)违反排除规则的假阳性,(iii)需要精细调整的掩码。输出结构化JSON - Agent 2 (Supervisor_boxgen):根据Agent 1的批评生成候选边界框 - SigLIP验证器:裁剪候选区域(带上下文缓冲),通过SigLIP图文匹配验证,sigmoid概率≥0.5则接受

自适应迭代控制器(AiRC)

将迭代控制建模为有限视野MDP,使用表格Q-learning:

  • 状态空间:6个状态 \(s = 2d + v\)\(d \in \{0,1,2\}\)(场景密度桶),\(v \in \{0,1\}\)(是否有未解决违规)
  • 动作空间\(\{\)STOP, CONTINUE\(\}\)
  • Issue count\(I_t = I_{miss} + I_{false} + 0.1 \cdot I_{ref}\)(真实错误计1分,微调建议仅0.1分)
  • 奖励设计
\[r(s,a,s') = \begin{cases}(I_t - I_{t+1}) - c + b[I_{t+1}=0], & a_t = \text{CONTINUE} \\ 0, & a_t = \text{STOP}, I_t = 0 \\ -p, & a_t = \text{STOP}, I_t > 0\end{cases}\]
  • 步进成本 \(c = 0.02\),早停惩罚 \(p = 2.0\),clean-scene奖励 \(b = 1.0\)
  • Q-table持久化跨运行,\(\epsilon\)-greedy探索(\(\epsilon = 0.02\)
  • 约束:MIN_ITERS=2, MAX_ITERS=4

损失函数 / 训练策略

免训练框架:VLM(Gemini-2.5-flash)和SAM2.1均冻结,所有适应通过策略性提示和上下文控制实现。

  • Worker温度 \(T=0.5\)(检测灵活性),Supervisor_eval \(T=0.3\)(确定性推理)
  • 平均2.6次迭代/样本,每样本成本约$0.0088(Gemini-2.5-flash API)
  • 为应对VLM非确定性,每组实验跑3次不同随机种子,报告均值±标准差

实验关键数据

主实验

Waymo 指南一致数据集(101个人工验证样本,Full-length guidelines)

方法 gIoU cIoU mPr mRec mDice
LISA-7B 23.41 18.32 24.38 79.79 33.17
GroundedSAM 20.43 19.36 29.35 28.11 25.63
Gemini-2.5 69.02 74.24 80.91 79.89 78.75
SegZero 71.96 73.72 86.34 78.45 80.88
Ours 80.57 86.70 91.06 84.78 87.20

ReasonSeg val 数据集

方法 gIoU cIoU
Gemini-2.5 55.5 44.9
SegZero 62.6 62.0
Ours 68.1 66.4

关键观察:随指南长度增加(单词→短语→全文),其他方法性能大幅下降,而Gemini-2.5和本方法反而受益于完整指南。

消融实验

组件消融(Waymo)

配置 gIoU cIoU mPr mRec
Worker only 69.02 74.24 80.91 79.89
+ Context Construction 73.87 78.40 88.36 80.81
+ Context + Supervisor (Full) 80.57 86.70 91.06 84.78

AiRC 效果:动态停止比固定2次迭代多解决110%的违规(0.61 vs 0.29 violations/crop),仅需48%的crop额外运行。

关键发现

  • LISA等方法在全文指南下gIoU骤降至20+,因为无法处理长上下文中的复杂规则
  • 高recall(84.78)表明成功恢复了遗漏物体(如雨伞、背包),高precision(91.06)表明有效去除了假阳性(如骑车人、反射)
  • 自适应停止器在密集场景获益最大,因为违规最可能出现在拥挤场景

亮点与洞察

  1. 问题定义新颖:首次明确提出"指南一致性分割",将标注规则遵循提升为一阶任务目标,揭示了现有GT标注自身不一致的问题
  2. RL停止策略:用紧凑的6状态Q-table实现自适应迭代控制,比固定迭代更高效且效果更好
  3. 双Agent分工:将评估和框生成分给不同Agent,比单一Agent承担所有职责更有效
  4. 可扩展性:VLM和SAM均冻结,指南更新不需要重训练,只需修改文本输入

局限性 / 可改进方向

  • 依赖闭源VLM(Gemini-2.5 API),限制了本地部署和可复现性
  • 量化约束解读困难:VLM难以精确判断"物品是否大于2m",可能导致误判
  • 以边界框为主要SAM输入,限制了细粒度分割(如睫毛等精细特征)
  • 优先准确性而非延迟:多次API调用不适合实时应用
  • 仅支持语义分割,未扩展到实例分割级别

相关工作与启发

  • Agent协作范式:继承了MetaGPT、AutoGen等多Agent框架的思想——多个专精Agent协作优于单个全能Agent
  • VLM分割进展:从LISA的单次推理到本文的迭代精炼,体现了VLM在分割中从"回答"到"验证"的范式转变
  • 自纠正机制:Worker-Supervisor循环可视为视觉任务中的self-refine,但加入了显式的规则验证环节
  • 启发:指南一致性思路可扩展到医疗影像标注、自动驾驶感知标注等需要严格规则的领域

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 问题定义新颖,多Agent+RL的免训练方案独特
  • 实验充分度: ⭐⭐⭐⭐ — Waymo+ReasonSeg验证,人工策划高质量测试集,消融充分
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,可视化丰富,但部分内容冗余
  • 价值: ⭐⭐⭐⭐ — 指南一致性是实际标注流程中的真实痛点,高实用价值