Guideline-Consistent Segmentation via Multi-Agent Refinement¶
会议: AAAI 2026
arXiv: 2509.04687
代码: 项目页面
领域: 分割
关键词: 指南一致性分割, 多智能体, VLM, 强化学习, 免训练框架
一句话总结¶
提出一个免训练的多智能体框架,通过 Worker(分割执行)和 Supervisor(指南验证)的迭代循环,配合 RL 自适应停止策略,实现严格遵循复杂文本指南的语义分割,在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。
研究背景与动机¶
语义分割不仅需要精确的像素级掩码,更需要严格遵循文本定义的标注规则(guideline)。然而:
- 标注指南复杂冗长:如 Waymo 的行人指南包含十多条规则——"骑滑板车的人算行人"、"排除人体模型/雕像/反射"、"持有小于2m物品的行人算单一标签"等
- 现有方法失败于长文本:LISA、GroundedSAM 等开放词汇分割方法在短语提示下表现良好,但面对段落级指南时性能急剧下降(LISA-7B 从43.42 gIoU降至23.41)
- 人工标注也不一致:Waymo官方GT本身存在违反自身指南的情况(同一场景不同时间戳标注不一致)
- 重训练不可行:标注规则可能更新,依赖特定任务重训练不实际
核心目标:设计一个免训练框架,能处理复杂段落级指南,通过迭代验证确保分割结果的指南一致性。
方法详解¶
整体框架¶
流程:输入图像 + 文本指南 → 上下文构建(筛选相关规则)→ Worker-Supervisor 迭代循环(分割→验证→修正)→ 自适应停止控制器决定终止 → 输出指南一致的分割。
核心组件: - Context Construction:包含 Enricher(场景描述)+ Retriever(指南检索)+ Smart Crop - Worker:VLM驱动的检测+SAM分割 - Supervisor:双Agent评估(Agent1-评估/Agent2-框生成)+ SigLIP验证 - AiRC:RL驱动的自适应迭代控制器
关键设计¶
上下文构建¶
不同图像只需相关的子集规则,全部输入会造成信息过载:
- Enricher:用 Gemma3-4B 轻量多模态模型生成图像描述,结合提示词和分辨率构建查询 \(Q = \{P, <caption>, H \times W\}\)
- Retriever:用 SentenceTransformer 将查询编码为向量,在 FAISS 索引中检索 top-k=8 条最相关指南
- Smart Crop:将图像按对象分布切分为两个区域,避免切割物体,平衡左右对象数量。先0.8×降采样通过OWLv2获取粗略框,再基于空间分布确定最优切分线
Worker-Supervisor 迭代循环¶
Worker: - 初始化阶段:VLM(Gemini-2.5-flash)检测目标类别的边界框,分配唯一ID,传给冻结的SAM2.1生成掩码 - 迭代阶段:接收Supervisor反馈后修正——补充遗漏物体、删除误检、调整不完美框
Supervisor(双Agent设计): - Agent 1 (Supervisor_eval):访问图像、Worker输出和相关指南,识别三类问题:(i)遗漏物体,(ii)违反排除规则的假阳性,(iii)需要精细调整的掩码。输出结构化JSON - Agent 2 (Supervisor_boxgen):根据Agent 1的批评生成候选边界框 - SigLIP验证器:裁剪候选区域(带上下文缓冲),通过SigLIP图文匹配验证,sigmoid概率≥0.5则接受
自适应迭代控制器(AiRC)¶
将迭代控制建模为有限视野MDP,使用表格Q-learning:
- 状态空间:6个状态 \(s = 2d + v\),\(d \in \{0,1,2\}\)(场景密度桶),\(v \in \{0,1\}\)(是否有未解决违规)
- 动作空间:\(\{\)STOP, CONTINUE\(\}\)
- Issue count:\(I_t = I_{miss} + I_{false} + 0.1 \cdot I_{ref}\)(真实错误计1分,微调建议仅0.1分)
- 奖励设计:
- 步进成本 \(c = 0.02\),早停惩罚 \(p = 2.0\),clean-scene奖励 \(b = 1.0\)
- Q-table持久化跨运行,\(\epsilon\)-greedy探索(\(\epsilon = 0.02\))
- 约束:MIN_ITERS=2, MAX_ITERS=4
损失函数 / 训练策略¶
免训练框架:VLM(Gemini-2.5-flash)和SAM2.1均冻结,所有适应通过策略性提示和上下文控制实现。
- Worker温度 \(T=0.5\)(检测灵活性),Supervisor_eval \(T=0.3\)(确定性推理)
- 平均2.6次迭代/样本,每样本成本约$0.0088(Gemini-2.5-flash API)
- 为应对VLM非确定性,每组实验跑3次不同随机种子,报告均值±标准差
实验关键数据¶
主实验¶
Waymo 指南一致数据集(101个人工验证样本,Full-length guidelines):
| 方法 | gIoU | cIoU | mPr | mRec | mDice |
|---|---|---|---|---|---|
| LISA-7B | 23.41 | 18.32 | 24.38 | 79.79 | 33.17 |
| GroundedSAM | 20.43 | 19.36 | 29.35 | 28.11 | 25.63 |
| Gemini-2.5 | 69.02 | 74.24 | 80.91 | 79.89 | 78.75 |
| SegZero | 71.96 | 73.72 | 86.34 | 78.45 | 80.88 |
| Ours | 80.57 | 86.70 | 91.06 | 84.78 | 87.20 |
ReasonSeg val 数据集:
| 方法 | gIoU | cIoU |
|---|---|---|
| Gemini-2.5 | 55.5 | 44.9 |
| SegZero | 62.6 | 62.0 |
| Ours | 68.1 | 66.4 |
关键观察:随指南长度增加(单词→短语→全文),其他方法性能大幅下降,而Gemini-2.5和本方法反而受益于完整指南。
消融实验¶
组件消融(Waymo):
| 配置 | gIoU | cIoU | mPr | mRec |
|---|---|---|---|---|
| Worker only | 69.02 | 74.24 | 80.91 | 79.89 |
| + Context Construction | 73.87 | 78.40 | 88.36 | 80.81 |
| + Context + Supervisor (Full) | 80.57 | 86.70 | 91.06 | 84.78 |
AiRC 效果:动态停止比固定2次迭代多解决110%的违规(0.61 vs 0.29 violations/crop),仅需48%的crop额外运行。
关键发现¶
- LISA等方法在全文指南下gIoU骤降至20+,因为无法处理长上下文中的复杂规则
- 高recall(84.78)表明成功恢复了遗漏物体(如雨伞、背包),高precision(91.06)表明有效去除了假阳性(如骑车人、反射)
- 自适应停止器在密集场景获益最大,因为违规最可能出现在拥挤场景
亮点与洞察¶
- 问题定义新颖:首次明确提出"指南一致性分割",将标注规则遵循提升为一阶任务目标,揭示了现有GT标注自身不一致的问题
- RL停止策略:用紧凑的6状态Q-table实现自适应迭代控制,比固定迭代更高效且效果更好
- 双Agent分工:将评估和框生成分给不同Agent,比单一Agent承担所有职责更有效
- 可扩展性:VLM和SAM均冻结,指南更新不需要重训练,只需修改文本输入
局限性 / 可改进方向¶
- 依赖闭源VLM(Gemini-2.5 API),限制了本地部署和可复现性
- 量化约束解读困难:VLM难以精确判断"物品是否大于2m",可能导致误判
- 以边界框为主要SAM输入,限制了细粒度分割(如睫毛等精细特征)
- 优先准确性而非延迟:多次API调用不适合实时应用
- 仅支持语义分割,未扩展到实例分割级别
相关工作与启发¶
- Agent协作范式:继承了MetaGPT、AutoGen等多Agent框架的思想——多个专精Agent协作优于单个全能Agent
- VLM分割进展:从LISA的单次推理到本文的迭代精炼,体现了VLM在分割中从"回答"到"验证"的范式转变
- 自纠正机制:Worker-Supervisor循环可视为视觉任务中的self-refine,但加入了显式的规则验证环节
- 启发:指南一致性思路可扩展到医疗影像标注、自动驾驶感知标注等需要严格规则的领域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 问题定义新颖,多Agent+RL的免训练方案独特
- 实验充分度: ⭐⭐⭐⭐ — Waymo+ReasonSeg验证,人工策划高质量测试集,消融充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,可视化丰富,但部分内容冗余
- 价值: ⭐⭐⭐⭐ — 指南一致性是实际标注流程中的真实痛点,高实用价值