Phrase-Instance Alignment for Generalized Referring Segmentation¶
会议: CVPR 2026
arXiv: 2411.15087
代码: https://eronguyen.github.io/InstAlign (有)
领域: 图像分割
关键词: 广义指代分割, 短语-实例对齐, 实例级推理, 多目标分割, 无目标检测
一句话总结¶
本文提出 InstAlign,将广义指代分割 (GRES) 重构为实例级推理问题,通过短语-目标对齐 (POA) 损失建立语言短语与视觉实例的细粒度对应关系,并用相关性加权聚合机制统一处理多目标和无目标场景,在 gRefCOCO 上 cIoU 提升 3.22%、N-acc 提升 12.25%。
研究背景与动机¶
-
领域现状:广义指代分割 (GRES) 是经典指代分割 (RES) 的扩展,要求模型处理"两个左边的人"、"所有的车"甚至"沙发上的大象"(图中无大象)等表达——描述可能对应多个对象或零个对象。现有 GRES 方法(如 ReLA、LQMFormer、MABP 等)仍然采用"基于区域"的策略,对整个表达直接预测一个前景二值 mask。
-
现有痛点:这种一次性预测单个 mask 的做法把丰富的语言结构"压扁"成了一个无差别区域——模型无法分辨同一表达中各短语对应的不同视觉实例,导致对相关实例的过分割或欠分割。例如,描述"左边的两条狗"时,现有方法容易把两条狗合并成一个 blob 或只分割到一条。
-
核心矛盾:问题根源在于缺乏实例级监督——现有查询式架构虽然有多个 object query,但只监督最终合并后的 mask,各 query 没有被迫去"专精"到不同实例,导致 query 之间纠缠不清、语义模糊。
-
本文目标 (a) 如何让每个 object query 自动对应一个独立的视觉实例?(b) 如何建立 query 与表达中各短语的显式对齐?(c) 如何在多目标和无目标场景下统一推理?
-
切入角度:作者观察到,指代表达天然具有可分解的短语结构("left dog" vs "right dog"),若模型能先做实例感知分割再做短语对齐,就能获得可解释且准确的分割。
-
核心 idea:将 GRES 从"直接预测合并 mask"重构为"短语条件实例分割 + 相关性加权聚合",通过显式的 POA 损失实现 query-to-phrase 的细粒度监督。
方法详解¶
整体框架¶
InstAlign 的输入是一张图像和对应的指代表达,输出是最终分割 mask 以及是否存在目标的判断。整体 pipeline 分四步:(1) 视觉编码器提取多尺度特征、BERT 编码文本 token;(2) \(N\) 个可学习 object query 通过 \(K\) 层 transformer decoder 与视觉和文本特征交互;(3) 每个 query 预测一个实例 mask 和一个相关性得分,同时通过 POA 损失对齐到对应的语言短语;(4) 所有实例 mask 按相关性得分做加权聚合,得到最终分割,同时通过 no-target 预测器判断是否无目标。
关键设计¶
-
实例感知分割框架(Instance-aware Segmentation):
- 功能:让每个 object query 被显式监督为对应一个独特的视觉实例
- 核心思路:以 Mask2Former 作为骨干,但注入文本条件——在 decoder 层中做 query-视觉-文本的双向交叉注意力。最终 \(N\) 个 query 各输出一个实例 mask \(\hat{s}_i\) 和相关性得分 \(\hat{p}_i\)。利用匈牙利匹配将预测实例与 ground-truth 实例一一对应,匹配代价为 \(\mathcal{L}_{\text{match}}(i,j) = \lambda_{\text{score}}\mathcal{L}_{\text{score}}(\hat{p}_i,1) + \lambda_{\text{mask}}\mathcal{L}_{\text{mask}}(\hat{s}_i, s_j)\)。匹配到的 query 同时训练 mask 和得分,未匹配的 query 只训练得分为 0。
- 设计动机:这是 GRES 中首次引入实例级监督,打破了以往 query 只靠最终合并 mask 监督导致的纠缠问题。
-
短语-目标对齐损失(Phrase-Object Alignment, POA):
- 功能:建立每个 object query 与表达中最相关短语的显式语义对应
- 核心思路:分三步——先用缩放点积注意力计算 query 到每个文本 token 的相关性矩阵 \(R_k = \text{softmax}(Q_k T_k^\top / \sqrt{C})\);再用这个矩阵对文本特征做加权求和得到每个 query 的"软短语嵌入" \(P_k = R_k T_k\);最后用余弦相似度损失 \(\mathcal{L}_{\text{phrase}}(i) = 1 - \text{sim}(Q_k^i, P_k^i)\) 迫使 query 嵌入与其对应的短语嵌入对齐。这个损失被加入匈牙利匹配代价中,加权系数为 \(\lambda_{\text{phrase}}\)。
- 设计动机:与以往隐式跨模态注意力不同,POA 提供了直接的短语-实例对应监督,在消歧义(如区分两条狗)和组合表达(属性+关系)上效果显著。可视化显示 query 确实能自动"认领"对应的短语。
-
实例聚合模块(Instance Aggregation, IA):
- 功能:将多个实例 mask 按相关性得分软聚合为最终预测 mask
- 核心思路:最终 mask 为 \(\mathcal{M}_{\text{merged}} = \text{Sigmoid}(\sum_{i=1}^N \hat{p}_i \cdot \sigma(\hat{s}_i))\),其中 \(\sigma(\cdot)\) 是 PReLU 激活函数,充当可学习的动态阈值来抑制背景噪声。这种连续加权完全可微,允许模型优雅地处理多目标和组合表达。
- 设计动机:相比硬选择策略(选得分最高的几个),软聚合避免了遗漏相关实例或引入无关实例的风险。消融实验显示 PReLU 带来 +0.8% cIoU 和 +1.5% N-acc。
-
无目标预测器(No-target Predictor):
- 功能:判断指代表达是否在图中无对应对象
- 核心思路:将相关性加权的全局 query 特征 \(Q_{\text{global}} = \sum_i \hat{p}_i \cdot Q^i\) 与句子级文本嵌入 \(T_{\text{sen}} = \text{Average}(T_K)\) 拼接后送入 MLP 分类器。当所有 query 的相关性得分都较低时,模型推断为无目标情况。
- 设计动机:利用了与 mask 推理相同的相关性表示,设计上统一且轻量。消融显示 \(Q_{\text{global}}\) 和 \(T_{\text{sen}}\) 都不可或缺。
损失函数 / 训练策略¶
总损失为 \(\mathcal{L}_{\text{total}} = \lambda_{\text{merged}}\mathcal{L}_{\text{merged}} + \lambda_{\text{inst}}\mathcal{L}_{\text{inst}} + \lambda_{\text{nt}}\mathcal{L}_{\text{nt}}\)。使用 Swin-B 作为视觉编码器(ImageNet22K 预训练),BERT 作为文本编码器,9 层 transformer decoder,100 个 object query,输入 480×480,batch 32,AdamW,20 epochs,4 张 A5000 约 24 小时。
实验关键数据¶
主实验¶
| 数据集 | 指标 | InstAlign | 之前 SOTA | 提升 |
|---|---|---|---|---|
| gRefCOCO val | cIoU | 68.94% | 65.72% (MABP) | +3.22% |
| gRefCOCO val | gIoU | 74.34% | 70.94% (LQMFormer) | +3.40% |
| gRefCOCO val | N-acc | 79.72% | 67.47% (LQMFormer) | +12.25% |
| gRefCOCO testA | cIoU | 73.22% | 71.85% (CoHD) | +1.37% |
| Ref-ZOM test | mIoU | 70.81% | 69.81% (CoHD) | +1.00% |
| Ref-ZOM test | Acc | 94.23% | 93.34% (CoHD) | +0.89% |
值得注意的是,InstAlign 仅用 Swin-B 骨干,规模远小于 LLM-based 方法(如 SAM4MLLM-8B),但在 cIoU/gIoU 上全面超越后者,且 N-acc 领先幅度高达 13+ 个百分点。
消融实验¶
| 配置 | cIoU | gIoU | N-acc | 说明 |
|---|---|---|---|---|
| 无实例监督 | 63.33 | 66.95 | 70.56 | 退化为 ReLA 式方法 |
| Mask2Former 监督 | 66.26 | 70.32 | 76.19 | +2.93% cIoU |
| + POA (完整模型) | 68.94 | 74.34 | 79.72 | POA 再补 +2.68% cIoU |
| 硬选择聚合 | 66.67 | 69.25 | 72.96 | 相比 IA 差 2.27% |
| IA 无 PReLU | 68.13 | 72.35 | 78.22 | PReLU 贡献 +0.81% |
| N=20 queries | 67.64 | 72.67 | 77.25 | query 太少不够 |
| N=100 queries | 68.94 | 74.34 | 79.72 | 最优 |
| N=200 queries | 68.01 | 73.24 | 78.12 | 过多反而下降 |
关键发现¶
- POA 是最大贡献者:从无实例监督到加 POA,累计提升 5.6% cIoU 和 9.16% N-acc。POA 对无目标检测帮助尤其大。
- 实例级监督是必要前提:即使不加 POA,仅引入 Mask2Former 式匹配监督就能大幅提升(+2.93%),说明 GRES 确实需要 query 的实例特化。
- 100 个 query 是最优权衡:多了反而下降,可能因为冗余 query 引入噪声。
亮点与洞察¶
- 将 GRES 从区域问题重新定义为实例推理问题——概念上的突破比技术细节更重要。这个重新定义使得多目标/无目标场景的处理变得自然统一。
- POA 的"软短语嵌入"设计很巧妙——不需要解析器来分割短语,而是通过注意力权重自动发现 query-to-word 的对应关系,端到端可学。
- 相关性加权聚合的思路可推广到其他需要从多个候选中选择并合并的任务,如多轮对话中的视觉 grounding。
局限与展望¶
- 作者承认模型在处理层次化/组合属性关系时仍有困难,如"左边有白汤的碗"这种附加属性与主描述冲突时会失败
- 没有测试在开放词汇或更大规模数据上的泛化性
- POA 是 soft alignment,没有利用显式的短语解析信息,可能在很长的复杂表达上不够精确
相关工作与启发¶
- vs ReLA: ReLA 用区域级关系注意力,没有实例级监督,InstAlign 的实例感知设计是根本性差异,N-acc 从 56.37% 提升到 79.72%
- vs LLM-based (GSVA, SAM4MLLM): 这些方法依赖大模型和外部数据,规模大 10 倍以上,但 InstAlign 用 Swin-B 就超越了它们,说明任务特化的结构设计比粗暴的规模扩展更有效
- vs MABP: MABP 也将语言特征注入 query 初始化,但只用固定 patch 监督每个 query,不做 phrase-level 对齐
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 GRES 重定义为实例推理是好想法,但具体技术(匈牙利匹配+对比对齐)不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 两个benchmark、完整消融、可视化分析、多种 baseline 对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表翔实,动机推导顺畅
- 价值: ⭐⭐⭐⭐ N-acc 提升 12%+ 是显著进展,实例级推理是 GRES 的正确方向
相关论文¶
- [CVPR 2026] LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment
- [ICLR 2026] AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
- [CVPR 2026] RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation
- [CVPR 2026] Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation
- [CVPR 2026] Weakly-Supervised Referring Video Object Segmentation through Text Supervision