AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation¶

会议: ACL 2026
arXiv: 2604.18562
代码: https://github.com/rui-qian/AnchorSeg
领域: 推理分割 / 多模态VLM
关键词: 推理分割, 语言引导查询库, 空间先验, Token-Mask一致性, SAM

一句话总结¶

提出AnchorSeg，将推理分割重构为基于语言引导查询库的结构化条件生成过程，通过锚点查询显式解耦空间定位与语义推理，配合Token-Mask循环一致性训练目标，在ReasonSeg上达到SOTA（67.7% gIoU, 68.1% cIoU）。

研究背景与动机¶

领域现状：推理分割要求模型根据复杂、隐含的文本查询（如"这个场景中提供遮荫的物体"）预测像素级掩码。LISA等方法引入<SEG> token，将其隐藏状态作为单一查询送入SAM解码器来预测掩码。

现有痛点：现有方法将语义推理和空间定位都压缩到单一<SEG> token的隐藏表示中，这种隐式压缩限制了模型显式区分"分割什么"（语义推理）和"在哪分割"（空间定位）的能力，在复杂推理场景下表现受限。

核心矛盾：单一embedding需要同时编码语义理解和空间位置两种本质不同的信息，这造成了表征瓶颈——推理越复杂，单一向量越难以同时承载两种信号。

本文目标：将推理分割重新定义为结构化条件生成问题，在图像token层面显式建模空间定位，并用语言引导的查询来提供条件。

切入角度：引入多个可学习token构成"查询库"，让不同token承担不同角色——上下文查询负责语义推理，锚点查询负责空间定位。

核心 idea：用语言引导的查询库替代单一SEG token，通过因子化条件分布显式解耦空间定位（锚点查询）与语义调制（上下文查询）。

方法详解¶

整体框架¶

输入图像和文本查询，LMM（如LLaVA）自回归生成K个潜在推理token和1个分割锚点token <SEG>，构成查询库 \(\mathbf{Q} = (\boldsymbol{q}_1, ..., \boldsymbol{q}_K, \boldsymbol{q}_{anc})\)。锚点查询与图像token计算相似度产生空间先验，注入视觉特征后，整个查询库送入SAM解码器预测最终掩码。

关键设计¶

语言引导查询库构建（Query Bank Construction）:
- 功能：构建结构化的条件查询序列，为后续的空间定位和语义推理提供分离的表征
- 核心思路：扩展LMM词汇表，引入K个潜在推理token <LAT_1>,...,<LAT_K> 和一个分割token <SEG>。在自回归生成过程中，<SEG> 显式条件化于前面的推理token。上下文查询 \(\boldsymbol{q}_{1:K}\) 编码中间推理状态，锚点查询 \(\boldsymbol{q}_{anc}\) 作为空间定位信号
- 设计动机：将原本压缩在单一token中的两种信号分配到不同token上，让模型内部形成类似"先推理后定位"的有序过程
语言引导空间条件化（Language Grounded Conditioning）:
- 功能：将锚点查询转化为显式的空间定位先验，注入视觉特征
- 核心思路：将空间定位建模为图像token上的因子化条件分布 \(p(\boldsymbol{S}|\mathbf{Q}) = \prod_i p(s_i | \boldsymbol{i}_i, \boldsymbol{q}_{1:K}, \boldsymbol{q}_{anc})\)。实际中通过锚点查询与图像token的内积 \(s_i = \boldsymbol{i}_i^\top \boldsymbol{q}_{anc}\) 计算空间响应，reshape后得到空间先验 \(\mathbf{P}\)，通过逐元素加法注入视觉特征 \(\tilde{\mathbf{f}} = \mathbf{f} \oplus \mathbf{P}\)
- 设计动机：锚点查询直接产生定位信号，而上下文查询通过自回归生成过程隐式影响锚点查询的生成，实现语义对空间的调制
Token-Mask循环一致性（TMCC）:
- 功能：弥合token级空间响应与像素级掩码监督之间的分辨率差异
- 核心思路：双向约束——（a）Token-to-Mask：将token级响应上采样到图像分辨率，用BCE+Dice损失与高斯平滑后的GT掩码对齐；（b）Mask-to-Token：将GT掩码下采样到token分辨率，与token级响应对齐。确保空间推理在语言-视觉层次间保持一致
- 设计动机：token级的空间响应和像素级的掩码在不同分辨率下操作，需要双向一致性约束来防止两个层次产生矛盾

损失函数 / 训练策略¶

总损失包含三部分：自回归文本生成损失 \(\mathcal{L}_{txt}\)、SAM掩码预测损失 \(\mathcal{L}_{mask}\)（BCE+Dice）、以及TMCC损失 \(\mathcal{L}_{T2M} + \mathcal{L}_{M2T}\)。TMCC的BCE和Dice权重与掩码损失共享。

实验关键数据¶

主实验¶

在ReasonSeg测试集上的表现：

方法	gIoU	cIoU
LISA-7B	54.3	58.1
GSVA-7B	55.6	59.4
READ-7B	57.2	60.5
RSVP-7B	63.7	64.8
AnchorSeg-7B	67.7	68.1

消融实验¶

配置	gIoU	说明
单一SEG token (baseline)	54.3	LISA原始设计
+ 查询库 (无空间先验)	~62	多token推理有帮助
+ 空间先验注入	~65	显式定位信号提升大
+ TMCC	67.7	双向一致性进一步提升

关键发现¶

从单一SEG token到查询库的提升最为显著，说明多token推理结构是核心贡献
空间先验的显式注入（而非仅作为查询）带来明显额外收益，验证了解耦设计的必要性
TMCC的双向一致性约束虽然提升幅度不大，但有效防止了训练不稳定
在RefCOCO/+/g上也展现出竞争力，表明方法泛化性好

亮点与洞察¶

因子化条件分布的建模方式非常优雅：将空间定位显式建模为"每个图像token的相关性"，数学表达清晰且物理意义明确。这种token级的空间推理可以迁移到其他需要精确定位的多模态任务。
查询库内部的角色分工（上下文查询 vs 锚点查询）类似于人类的认知过程：先理解问题语义，再进行空间定位，最后精细分割。
TMCC的跨分辨率一致性约束是一个简洁但有效的正则化手段，可应用于任何涉及不同分辨率表征对齐的场景。

局限与展望¶

查询库中的K值（潜在推理token数量）是超参数，不同复杂度的查询可能需要不同数量的推理token
空间先验仅通过简单内积计算，可能在需要复杂空间推理（如遮挡关系）时不够强大
目前仅在推理分割和referring segmentation上评估，未探索在视觉问答等其他任务中的泛化
方法依赖SAM作为掩码解码器，受SAM本身能力的限制

评分¶

新颖性: ⭐⭐⭐⭐⭐ 查询库+因子化空间条件化的设计思路非常新颖
实验充分度: ⭐⭐⭐⭐ 在ReasonSeg和RefCOCO上全面评估
写作质量: ⭐⭐⭐⭐ 形式化清晰，但部分符号较重
价值: ⭐⭐⭐⭐ 为推理分割提供了更结构化的解决范式