DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy¶

会议: ICCV 2025
arXiv: 2507.01738
代码: 有（论文中提及link）
领域: segmentation
关键词: referring image segmentation, perception-cognition decoupling, loopback synergy, non-referent, GRES

一句话总结¶

提出DeRIS框架，将指代图像分割任务解耦为感知（perception）和认知（cognition）两个分支，通过回环协同（Loopback Synergy）机制迭代增强两分支的交互，并引入非指代样本转换增强策略，在RefCOCO/+/g和gRefCOCO数据集上取得SOTA。

研究背景与动机¶

指代图像分割（RIS）要求根据自然语言表达分割图像中的目标，需要同时具备精细感知能力和多模态认知能力。现有方法分为两类：感知中心方法（如Mask2Former系列）保留精细空间信息但多模态理解不足；认知中心方法（如BEiT3/CLIP系列）多模态理解强但因Transformer二次复杂度损失精细空间信息。→ 核心问题：RIS的主要瓶颈到底是感知还是认知？→ 作者通过定量分析发现，增强感知仅带来+1.2% cIoU提升，而增强认知带来+12.9% cIoU提升，证明认知能力是主要瓶颈。→ 本文提出将RIS解耦为感知和认知两个独立分支，各自发挥优势，通过Loopback Synergy机制有效连接。

方法详解¶

整体框架¶

DeRIS包含三个核心组件：（1）感知分支：使用Swin Transformer + FPN提取多尺度特征，生成高精度实例级mask；（2）认知分支：使用BEiT3视觉语言预训练模型，处理低分辨率图像和文本，提供多模态语义理解；（3）回环协同：多轮迭代传递object query，促进两分支间的渐进式信息交换。

关键设计¶

回环协同（Loopback Synergy）机制:
- 功能：在感知和认知分支间建立强交互，每轮包含一个认知层和感知层
- 核心思路：感知层生成object query \(Q_p\)和mask \(M_p\)，传入认知层；认知层让\(Q_p\)与图文语义信息交互，产生认知query \(Q_c\)和指代置信分数\(S_r\)；通过C1操作融合：\(Q_f = \text{MLP}(\text{Concat}(Q_p, Q_r))\)，作为下一轮输入。默认3轮迭代（\(N_r=3\)），每轮都有监督
- 设计动机：单向传递（如C-to-P）会导致感知分支收敛缓慢，而P-to-C方向自然流畅。回环设计让两分支持续互相增强，形成渐进式理解
感知层与认知层的具体设计:
- 功能：感知层负责精细mask生成，认知层负责指代分类
- 核心思路：感知层类似Mask2Former，通过可变形交叉注意力和自注意力处理query，融合特征图\(f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))\)整合感知和认知特征。认知层通过Instance-Instance关系（利用mask先验的自注意力）和Instance-Text关系（与文本特征的交叉注意力）产生语义对齐的\(Q_c\)
- 设计动机：在mask预测中融入认知特征\(f_v\)可生成text-informed的候选区域；认知层的实例间关系建模帮助每个object感知空间位置
非指代样本转换（NSC）数据增强:
- 功能：缓解gRefCOCO中非指代样本仅~9%造成的长尾分布问题
- 核心思路：动态将包含目标的图文配对转换为非指代样本，通过替换文本描述实现。三级过滤确保不会生成假非指代：(1) 选取的句子对应图像必须与当前图像不同；(2) 句子长度大于阈值\(N_w=2\)；(3) 句子相似度低于阈值\(T_s=0.6\)，相似度为Jaccard和Cosine相似度的均值
- 设计动机：非指代样本过少导致模型倾向于过度预测目标存在，N-acc指标表现不佳

损失函数 / 训练策略¶

总损失包含三部分：分割损失\(\mathcal{L}_{mask}\)（BCE+Dice）、指代分类损失\(\mathcal{L}_r\)（BCE）、非指代判断损失\(\mathcal{L}_{nr}\)（BCE）。每轮Loopback的损失为\(\mathcal{L}^i = \lambda_m \mathcal{L}_{mask}^i + \lambda_r \mathcal{L}_r^i + \lambda_{nt} \mathcal{L}_{nt}^i\)，权重均为1.0。辅助损失权重\(\lambda_{aux}=0.2\)。推理时使用阈值\(\mathcal{T}_{ref}=0.7\)过滤指代分类。

实验关键数据¶

主实验¶

方法	RefCOCO val	RefCOCO+ val	RefCOCOg val(U)	说明
PolyFormer-L	76.94	72.15	71.15	感知中心
C3VG	81.37	77.05	76.34	认知中心
OneRef-L	81.26	76.60	75.68	认知中心
DeRIS-B	81.99	75.62	76.30	Swin-S+BEiT3-B
DeRIS-L	85.72	81.28	80.01	Swin-B+BEiT3-L

gRefCOCO (GRES) 结果：

方法	Val gIoU	Val cIoU	Val N-acc	TestA gIoU	TestB gIoU
SAM4MLLM-8B	71.86	67.83	66.08	74.15	65.29
DeRIS-B	74.10	68.06	77.03	73.72	65.63
DeRIS-L	77.67	72.00	82.22	75.30	67.99

消融实验¶

配置	gIoU	cIoU	说明
Query: P-to-C (baseline)	69.98	65.49	感知→认知
Query: C-to-P	56.77	54.80	认知→感知（收敛慢）
Hierarchical Combined	70.13	66.32	特征级融合（训练慢18%）
Loopback Synergy	71.37	67.27	回环协同（训练仅慢3%）

认知vs感知瓶颈分析：

认知模型	感知模型	cIoU变化
BERT-B → BEiT3-B	Swin-S	+10.05 (认知增强效果巨大)
BEiT3-B	Swin-T → Swin-B	+1.20 (感知增强效果有限)

NSC增强效果：

配置	N-acc	gIoU	cIoU
w/o NSC	60.19	66.09	63.98
w/ NSC (Rc=15%)	75.36 (+15.17)	71.82 (+5.73)	66.33 (+2.35)

关键发现¶

认知能力是RIS的主要瓶颈（+12.9% vs +1.2%），而非感知能力
定性分析表明：object query能产生准确mask，但指代分类频繁失败
NSC策略使N-acc提升15+个百分点，有效解决非指代判断的训练不稳定问题
DeRIS天然适配非指代和多指代场景，无需特殊架构修改

亮点与洞察¶

首次系统性地量化了RIS中感知和认知的贡献比重，发现认知是主要瓶颈，这一洞察对领域有指导意义
回环协同设计优雅简洁：仅通过object query的迭代传递即可建立强交互，几乎不增加训练开销
NSC增强策略简单有效，通过三级过滤确保转换质量
框架具有良好的可扩展性：可将BEiT3替换为Qwen2-7B等更强认知模型

局限与展望¶

感知分支使用的是384×384分辨率，更高分辨率可能进一步提升细粒度分割
认知分支使用224×224低分辨率，可能丢失部分空间信息
NSC的转换概率Rc需要手动调优，自适应策略可能更好
未探索将方法扩展到视频域的referring video segmentation

评分¶

新颖性: ⭐⭐⭐⭐ 解耦感知认知的思路清晰且有说服力，回环协同设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 四个数据集全面验证，分析实验丰富深入，瓶颈分析有说服力
写作质量: ⭐⭐⭐⭐ 结构清晰，问题驱动的叙事方式引人入胜
价值: ⭐⭐⭐⭐⭐ 认知瓶颈的发现对RIS领域有指导意义，方法SOTA且通用性强