Guideline-Consistent Segmentation via Multi-Agent Refinement¶

会议: AAAI 2026
arXiv: 2509.04687
代码: 项目页面
领域: 分割
关键词: 指南一致性分割, 多智能体, VLM, 强化学习, 免训练框架

一句话总结¶

提出一个免训练的多智能体框架，通过 Worker（分割执行）和 Supervisor（指南验证）的迭代循环，配合 RL 自适应停止策略，实现严格遵循复杂文本指南的语义分割，在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。

研究背景与动机¶

语义分割不仅需要精确的像素级掩码，更需要严格遵循文本定义的标注规则（guideline）。然而：

标注指南复杂冗长：如 Waymo 的行人指南包含十多条规则——"骑滑板车的人算行人"、"排除人体模型/雕像/反射"、"持有小于2m物品的行人算单一标签"等
现有方法失败于长文本：LISA、GroundedSAM 等开放词汇分割方法在短语提示下表现良好，但面对段落级指南时性能急剧下降（LISA-7B 从43.42 gIoU降至23.41）
人工标注也不一致：Waymo官方GT本身存在违反自身指南的情况（同一场景不同时间戳标注不一致）
重训练不可行：标注规则可能更新，依赖特定任务重训练不实际

核心目标：设计一个免训练框架，能处理复杂段落级指南，通过迭代验证确保分割结果的指南一致性。

方法详解¶

整体框架¶

流程：输入图像 + 文本指南 → 上下文构建（筛选相关规则）→ Worker-Supervisor 迭代循环（分割→验证→修正）→ 自适应停止控制器决定终止 → 输出指南一致的分割。

核心组件： - Context Construction：包含 Enricher（场景描述）+ Retriever（指南检索）+ Smart Crop - Worker：VLM驱动的检测+SAM分割 - Supervisor：双Agent评估（Agent1-评估/Agent2-框生成）+ SigLIP验证 - AiRC：RL驱动的自适应迭代控制器

关键设计¶

上下文构建¶

不同图像只需相关的子集规则，全部输入会造成信息过载：

Enricher：用 Gemma3-4B 轻量多模态模型生成图像描述，结合提示词和分辨率构建查询 $Q = \{P, <caption>, H \times W\}$
Retriever：用 SentenceTransformer 将查询编码为向量，在 FAISS 索引中检索 top-k=8 条最相关指南
Smart Crop：将图像按对象分布切分为两个区域，避免切割物体，平衡左右对象数量。先0.8×降采样通过OWLv2获取粗略框，再基于空间分布确定最优切分线

Worker-Supervisor 迭代循环¶

Worker： - 初始化阶段：VLM（Gemini-2.5-flash）检测目标类别的边界框，分配唯一ID，传给冻结的SAM2.1生成掩码 - 迭代阶段：接收Supervisor反馈后修正——补充遗漏物体、删除误检、调整不完美框

Supervisor（双Agent设计）： - Agent 1 (Supervisor_eval)：访问图像、Worker输出和相关指南，识别三类问题：(i)遗漏物体，(ii)违反排除规则的假阳性，(iii)需要精细调整的掩码。输出结构化JSON - Agent 2 (Supervisor_boxgen)：根据Agent 1的批评生成候选边界框 - SigLIP验证器：裁剪候选区域（带上下文缓冲），通过SigLIP图文匹配验证，sigmoid概率≥0.5则接受

自适应迭代控制器（AiRC）¶

将迭代控制建模为有限视野MDP，使用表格Q-learning：

状态空间：6个状态 $s = 2d + v$，$d \in \{0,1,2\}$（场景密度桶），$v \in \{0,1\}$（是否有未解决违规）
动作空间：$\{$STOP, CONTINUE$\}$
Issue count：$I_t = I_{miss} + I_{false} + 0.1 \cdot I_{ref}$（真实错误计1分，微调建议仅0.1分）
奖励设计：

\[r(s,a,s') = \begin{cases}(I_t - I_{t+1}) - c + b[I_{t+1}=0], & a_t = \text{CONTINUE} \\ 0, & a_t = \text{STOP}, I_t = 0 \\ -p, & a_t = \text{STOP}, I_t > 0\end{cases}\]

步进成本 $c = 0.02$，早停惩罚 $p = 2.0$，clean-scene奖励 $b = 1.0$
Q-table持久化跨运行，$\epsilon$-greedy探索（$\epsilon = 0.02$）
约束：MIN_ITERS=2, MAX_ITERS=4

损失函数 / 训练策略¶

免训练框架：VLM（Gemini-2.5-flash）和SAM2.1均冻结，所有适应通过策略性提示和上下文控制实现。

Worker温度 $T=0.5$（检测灵活性），Supervisor_eval $T=0.3$（确定性推理）
平均2.6次迭代/样本，每样本成本约$0.0088（Gemini-2.5-flash API）
为应对VLM非确定性，每组实验跑3次不同随机种子，报告均值±标准差

实验关键数据¶

主实验¶

Waymo 指南一致数据集（101个人工验证样本，Full-length guidelines）：

方法	gIoU	cIoU	mPr	mRec	mDice
LISA-7B	23.41	18.32	24.38	79.79	33.17
GroundedSAM	20.43	19.36	29.35	28.11	25.63
Gemini-2.5	69.02	74.24	80.91	79.89	78.75
SegZero	71.96	73.72	86.34	78.45	80.88
Ours	80.57	86.70	91.06	84.78	87.20

ReasonSeg val 数据集：

方法	gIoU	cIoU
Gemini-2.5	55.5	44.9
SegZero	62.6	62.0
Ours	68.1	66.4

关键观察：随指南长度增加（单词→短语→全文），其他方法性能大幅下降，而Gemini-2.5和本方法反而受益于完整指南。

消融实验¶

组件消融（Waymo）：

配置	gIoU	cIoU	mPr	mRec
Worker only	69.02	74.24	80.91	79.89
+ Context Construction	73.87	78.40	88.36	80.81
+ Context + Supervisor (Full)	80.57	86.70	91.06	84.78

AiRC 效果：动态停止比固定2次迭代多解决110%的违规（0.61 vs 0.29 violations/crop），仅需48%的crop额外运行。

关键发现¶

LISA等方法在全文指南下gIoU骤降至20+，因为无法处理长上下文中的复杂规则
高recall（84.78）表明成功恢复了遗漏物体（如雨伞、背包），高precision（91.06）表明有效去除了假阳性（如骑车人、反射）
自适应停止器在密集场景获益最大，因为违规最可能出现在拥挤场景

亮点与洞察¶

问题定义新颖：首次明确提出"指南一致性分割"，将标注规则遵循提升为一阶任务目标，揭示了现有GT标注自身不一致的问题
RL停止策略：用紧凑的6状态Q-table实现自适应迭代控制，比固定迭代更高效且效果更好
双Agent分工：将评估和框生成分给不同Agent，比单一Agent承担所有职责更有效
可扩展性：VLM和SAM均冻结，指南更新不需要重训练，只需修改文本输入

局限性 / 可改进方向¶

依赖闭源VLM（Gemini-2.5 API），限制了本地部署和可复现性
量化约束解读困难：VLM难以精确判断"物品是否大于2m"，可能导致误判
以边界框为主要SAM输入，限制了细粒度分割（如睫毛等精细特征）
优先准确性而非延迟：多次API调用不适合实时应用
仅支持语义分割，未扩展到实例分割级别

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 问题定义新颖，多Agent+RL的免训练方案独特
实验充分度: ⭐⭐⭐⭐ — Waymo+ReasonSeg验证，人工策划高质量测试集，消融充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，可视化丰富，但部分内容冗余
价值: ⭐⭐⭐⭐ — 指南一致性是实际标注流程中的真实痛点，高实用价值