Latent Expression Generation for Referring Image Segmentation and Grounding¶

会议: ICCV 2025
arXiv: 2508.05123
代码: 无
领域: 图像分割
关键词: 指代图像分割, 视觉定位, 潜在表达式生成, 对比学习, 多模态融合

一句话总结¶

提出 Latent-VG 框架，通过从单个文本描述生成多个潜在表达式（共享同一主语、但具有不同视觉属性），利用互补的视觉细节弥补稀疏文本与丰富视觉信息之间的语义差距，在指代图像分割和指代表达理解任务上同时达到 SOTA。

研究背景与动机¶

指代图像分割（RIS）和指代表达理解（REC）需要根据文本描述定位目标物体。视觉区域可以用多种方式描述——例如同一目标可被称为"穿牛仔裤的男人"、"年长的男人"、"左边的男人"——但模型通常只接收一个简短的文本输入，这仅捕获了目标丰富视觉信息的冰山一角。

本文指出了现有方法的核心问题：

文本-视觉语义鸿沟：单一稀疏的文本表达无法涵盖目标区域的全部视觉细节（颜色、纹理、空间位置、上下文关系等），导致模型预测严重依赖特定的文本线索

相似物体混淆：当场景中存在相似物体时，稀疏的文本描述容易导致错误定位。例如"穿牛仔裤的男人"可能匹配到同样穿牛仔裤的女人

本文的核心 idea 是：如果我们能从一个文本输入生成多个多样化的潜在表达式，每个保持相同主语但突出不同的视觉属性，然后集体利用这些表达式进行预测，就能有效弥合语义差距。关键原则是共享主语 + 差异化属性（shared-subject and distinct-attributes）。

方法详解¶

整体框架¶

Latent-VG 基于 BEiT-3 单编码器架构，输入图像和文本后，通过潜在表达式初始化生成多个初始潜在文本序列，然后在编码器的每一层中通过 Subject Distributor 和 Visual Concept Injector 模块强制执行"共享主语+差异属性"原则。最终，所有表达式的预测掩码取平均得到最终分割结果。

关键设计¶

潜在表达式初始化（Latent Expression Initialization）：从原始文本 token 嵌入出发，生成 \(N\) 个初始潜在表达式。每个表达式通过 Latent Attribute Initializer 处理：(a) 以不同概率 \(p_i\) 随机丢弃语义 token（减少对原始文本的依赖），(b) 通过长度变换层 \(\phi^i \in \mathbb{R}^{k^i \times m}\) 将 token 数从 \(m\) 转换为预定义长度 \(k^i\)。然后自动从文本 token 中选择一个"主语 token" \(\mathbf{s}\)（通过线性层 + Gumbel-softmax），前置到每个潜在表达式中：

\[\mathbf{Z}_0^i = [\mathbf{z}_{[cls]}^i, \mathbf{s}, \mathbf{A}_0^i] \in \mathbb{R}^{(k^i+2) \times d}\]

同时将主语 token 也注入到视觉序列中替换 visual class token。设计动机：通过不同的 dropout 和长度来产生多样性，通过共享主语 token 保持一致的目标指向。

Subject Distributor（主语分发器）：在编码器每一层的 self-attention 之后，各潜在表达式中的主语 token 可能已偏离原始主语语义。该模块将所有表达式中的主语 token \(\{\mathbf{s}^i\}_{i=1}^N\) 重新替换为视觉域中的主语 token \(\mathbf{s}^{\mathcal{V}}\)。这确保了在整个编码过程中，所有潜在表达式始终指向同一目标主语，类似于"锚点"机制。设计动机是防止 self-attention 混入后主语指向漂移。
Visual Concept Injector（视觉概念注入器）：在每一层中将独特的视觉概念注入属性 token，实现差异化属性。具体步骤：(a) 初始化 \(N_c\) 个正交概念 token \(\mathbf{C}\)；(b) 根据文本 class token 的相似度从视觉 patch 中筛选目标相关 patch \(\mathbf{V}^{tr}\)（阈值取平均值）；(c) 概念 token 通过注意力从目标相关 patch 中检索视觉概念 \(\mathbf{C}^{\mathcal{V}} = \mathbf{W} \mathbf{V}^{tr}\)；(d) 将视觉概念通过列归一化注意力注入属性 token \(\tilde{\mathbf{A}}\)，使每个属性 token 竞争绑定不同的视觉概念（类似 Slot Attention 机制）。设计动机是从视觉域提取属于目标但不在原始文本中的互补信息。

损失函数 / 训练策略¶

损失函数包含两部分：

正间距对比损失（Positive-Margin Contrastive Loss）：

\[\mathcal{L}_{\text{pos-cont}} = -\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(\min(1, \gamma + s_i)/\tau)}{\sum_{k \in \mathcal{N}_i}\exp(s_k/\tau)}\]

其中 \(s_i = \mathbf{t}_o^\top \mathbf{z}_o^i / (\|\mathbf{t}_o\| \|\mathbf{z}_o^i\|)\)，\(\gamma\) 是间距参数（设为 0.2）。标准对比学习强制正样本完全对齐，会导致所有潜在表达式坍缩为与原始文本相同的表示。正间距允许正样本之间存在一定差异，在保持语义一致性的同时鼓励多样性。

分割损失：

\[\hat{\mathbf{p}} = \frac{\sigma(\mathbf{F}^{\mathcal{V}} \cdot \mathbf{t}_o) + \sum_{i=1}^{N}\sigma(\mathbf{F}^{\mathcal{V}} \cdot \mathbf{z}_o^i)}{N+1}\]

对平均预测图应用 BCE + Dice 损失，\(\lambda_{\text{bce}}=2\), \(\lambda_{\text{dice}}=0.5\)。

训练使用 AdamW，batch size 64，4 张 A6000 GPU。推理时所有 dropout 设为 0。

实验关键数据¶

主实验¶

RIS 结果（Combined Dataset 训练，mIoU）

方法	编码器	RefCOCO val	RefCOCO+ val	RefCOCOg val(U)
PolyFormer	Swin-B + BERT	75.96	70.65	69.36
EEVG	ViT-B + BERT	79.49	71.86	73.56
One-Ref	BEiT3-B	79.83	74.68	74.06
Latent-VG (本文)	BEiT3-B	81.01	76.92	76.10

GRES 结果（gRefCOCO 数据集）

方法	val mIoU	val N-acc	testA mIoU	testB mIoU
GSVA-7B (SAM+CLIP-L)	66.47	62.43	71.08	62.23
HDC (Swin-B)	68.23	63.38	72.52	63.85
Latent-VG (本文)	72.45	70.42	74.51	66.12

Latent-VG 在 GRES 上仅需为无目标情况添加一个空 token 即可大幅超越 SOTA。

消融实验¶

各组件贡献（RefCOCO+ val）

配置	SD	VCI	mIoU	提升
无潜在表达式（基线）	-	-	68.76	+0.00
+ 朴素潜在表达式	×	×	71.03	+2.27
+ Subject Distributor	✓	×	71.59	+2.83
+ Visual Concept Injector	×	✓	71.86	+3.10
+ SD + VCI	✓	✓	72.63	+3.87
+ 正间距对比损失	✓	✓	73.19	+4.43

对比学习策略对比

损失函数	mIoU	oIoU	Pr@0.9
InfoNCE	72.03	69.72	24.60
Triplet	72.57	70.42	23.55
ArcFace	72.73	70.43	24.54
Positive-margin (本文)	73.19	70.68	26.45

关键发现¶

潜在表达式数量 \(N=2\) 且 token 长度 \(\{4, 10\}\) 时性能最优，更多表达式反而带来冗余
主语 token 选择有效：自动通过 Gumbel-softmax 从文本中选出核心指代词
Visual Concept Injector 的列归一化（类似 Slot Attention）是差异化属性的关键，去掉后每个表达式趋向相同
在 RefCOCO+ 和 RefCOCOg 上性能最突出，表明我们的方法对复杂文本描述更有效
REC 任务中，无需任何任务特定解码器，直接从 RIS 掩码提取包围框即超越 LLM-based 方法

亮点与洞察¶

原创性强：从文本增强角度出发解决视觉定位中的语义稀疏问题，潜在空间内的表达式生成是新颖的研究方向
统一框架：同一模型同时刷新 RIS、REC 和 GRES 三个任务的 SOTA，无需任务特定设计
正间距对比损失：优雅地解决了潜在表达式坍缩问题，在保持一致性的同时保留多样性
Slot Attention 启发的 VCI：通过竞争机制使属性 token 自动绑定到不同的视觉概念

局限与展望¶

计算增量较小（约 12M 参数、3 GFLOPs），但多个潜在表达式仍增加了推理时间
仅使用 BEiT3-B 作为骨干，未验证更大模型或其他架构（如 CLIP-L）
视觉概念 token 数 \(N_c = 100\) 通过消融确定，缺乏自适应机制
可探索将此方法推广到视频场景（视频指代分割）或 3D 场景理解
主语 token 选择依赖 Gumbel-softmax，对于没有明确主语的复杂表达可能不够鲁棒

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从文本增强角度解决视觉定位的语义稀疏性，潜在表达式生成 + 共享主语/差异属性设计新颖
实验充分度: ⭐⭐⭐⭐⭐ RIS/REC/GRES 三任务全面验证，消融实验覆盖每个组件和超参数
写作质量: ⭐⭐⭐⭐ 动机图示直观，方法描述清晰，公式推导完整
价值: ⭐⭐⭐⭐⭐ 统一框架刷新三个任务 SOTA，正间距对比损失具有广泛应用潜力