LoA-Trans: Enhancing Visual Grounding by Location-Aware Transformers¶

会议: ECCV 2024
arXiv: 无
代码: 无
DOI: 10.1007/978-3-031-72667-5_23
领域: 多模态VLM
关键词: 视觉定位, 位置感知查询, Transformer, REC, RES, 多任务协同

一句话总结¶

LoA-Trans提出一种位置感知的查询选择机制，生成多个可能的目标位置作为位置感知查询（而非仅依赖估计的中心点），并引入TaskSyn网络在解码器中实现指代表达理解（REC）和指代表达分割（RES）的任务协同，显著提升视觉定位的准确性。

研究背景与动机¶

领域现状：视觉定位（Visual Grounding）是多模态理解的核心任务，包括指代表达理解（REC，预测目标的bounding box）和指代表达分割（RES，预测目标的像素级掩码）。近年来，基于DETR框架的端到端方法成为主流，其核心组件包括视觉-语言特征融合和基于query的目标解码。

现有痛点：当前基于DETR的视觉定位方法面临两个关键问题：

(a) 查询初始化问题：大多数方法使用固定的可学习查询（如DETR）或仅使用预测的中心点生成查询。然而，中心点估计可能不准确，特别是对于遮挡、截断或形状不规则的目标，中心点估计误差直接导致后续解码失败。一旦初始查询偏离目标真实位置，解码器很难修正这一误差。

(b) 任务割裂问题：REC和RES虽然高度相关（都需要定位同一目标），但现有方法通常将它们作为独立任务处理，在解码器中使用不同的头和独立的损失函数。这忽略了两个任务之间的信息互补——检测提供的空间范围信息可以辅助分割，分割提供的精细边界信息可以优化检测。

核心矛盾：单一中心点估计的查询初始化方式缺乏鲁棒性，无法应对定位困难的场景；而REC和RES的独立处理浪费了任务间的互补信息。

本文解决什么：(a) 提出更鲁棒的位置感知查询生成策略，减少对中心点估计准确性的依赖；(b) 设计有效的任务协同机制，让REC和RES互相增强。

方法详解¶

整体框架¶

LoA-Trans基于经典的编码器-解码器架构，主要包含以下模块：

视觉编码器：使用ResNet或Swin Transformer提取多尺度视觉特征
语言编码器：使用BERT提取文本指代表达的特征
视觉-语言融合模块：通过cross-attention将文本信息注入视觉特征
位置感知查询选择模块（LoA Query Selection）：核心创新模块，生成多个位置感知查询
TaskSyn解码器：带有任务协同网络的Transformer解码器，同时预测box和mask

关键设计¶

1. 位置感知查询选择机制（Location-Aware Query Selection）¶

这是本文的核心技术贡献。不同于传统方法仅估计一个中心点并从该位置提取查询，LoA-Trans生成多个候选位置的查询：

候选位置生成：首先通过一个轻量化的分类头对融合后的视觉特征图上的每个位置进行评分，预测该位置包含目标的概率：

\[p_i = \sigma(W_c \cdot f_i + b_c)\]

其中 $f_i$ 为位置 $i$ 处的融合特征，$W_c, b_c$ 为分类头参数，$\sigma$ 为sigmoid函数。

多位置查询采样：选择概率最高的Top-$K$个位置（不仅是中心点），从这些位置提取特征作为位置感知查询：

\[Q_{loc} = \{f_{i_1}, f_{i_2}, ..., f_{i_K}\}, \quad i_k = \text{Top-K}(p)\]

核心优势：

冗余性带来鲁棒性：即使中心点估计有误，只要Top-$K$中有一个位置落在目标区域内，解码器就能恢复出准确的定位结果
多样性覆盖：Top-$K$位置自然覆盖了目标的不同部位（头部、躯干、边缘等），提供了更丰富的空间信息
与attention的互补：多个查询在解码器的self-attention中可以交换位置信息，形成对目标更全面的表征

位置编码增强：对每个候选查询，额外编码其在特征图上的空间坐标信息：

\[Q_{loc}^{(k)} = f_{i_k} + \text{PE}(x_{i_k}, y_{i_k})\]

其中PE为二维位置编码函数，确保解码器能利用空间位置。

2. TaskSyn网络（Task Synchronization Network）¶

TaskSyn网络嵌入在解码器中，目标是实现REC和RES两个任务的信息协同：

双分支结构：解码器输出经过两个并行分支： - 检测分支：将查询特征通过FFN预测bounding box坐标 $(x, y, w, h)$ - 分割分支：将查询特征与多尺度视觉特征进行dot-product attention，生成分割掩码

任务交互层（Task Interaction Layer）：在检测分支和分割分支之间引入交互：

\[f_{det}' = f_{det} + \text{CrossAttn}(f_{det}, f_{seg})$$ $$f_{seg}' = f_{seg} + \text{CrossAttn}(f_{seg}, f_{det})\]

其中 $f_{det}$ 和 $f_{seg}$ 分别为检测分支和分割分支的中间特征。

协同机制的直觉： - 检测分支提供的box范围约束了分割的搜索空间，避免分割出目标之外的区域 - 分割分支提供的精细边界信息帮助检测分支修正box的边界位置 - 两个任务共享对"目标在哪里"的理解，但各自提供互补的空间精度信息

逐层协同：TaskSyn不是只在最终输出端进行交互，而是在解码器的每一层都进行任务交互，使得两个任务在特征演化过程中持续互相优化。

3. 多尺度特征聚合¶

为了更好地处理不同大小的目标，LoA-Trans利用多尺度特征：

视觉编码器输出多个尺度的特征图（如1/8、1/16、1/32）
查询选择在高分辨率特征图上进行，获得更精确的位置
分割掩码生成利用所有尺度的特征，通过FPN式的融合获得精细结果

损失函数 / 训练策略¶

总损失函数由多个部分组成：

\[\mathcal{L} = \lambda_1 \mathcal{L}_{box} + \lambda_2 \mathcal{L}_{giou} + \lambda_3 \mathcal{L}_{mask} + \lambda_4 \mathcal{L}_{cls}\]

$\mathcal{L}_{box}$：L1 box回归损失
$\mathcal{L}_{giou}$：GIoU损失，更好地优化box重叠
$\mathcal{L}_{mask}$：二元交叉熵 + Dice损失的组合，用于分割掩码
$\mathcal{L}_{cls}$：查询选择的分类损失，监督位置分类头

训练策略： - 使用AdamW优化器，learning rate = 1e-4 - 权重衰减0.01 - 训练约90个epoch - 视觉编码器使用在ImageNet/COCO上预训练的权重，文本编码器使用预训练BERT

实验关键数据¶

主实验¶

在RefCOCO/RefCOCO+/RefCOCOg基准上的REC结果（Acc@0.5）：

方法	RefCOCO val	RefCOCO testA	RefCOCO testB	RefCOCO+ val	RefCOCO+ testA	RefCOCO+ testB	RefCOCOg val	RefCOCOg test
TransVG	81.02	82.72	78.35	64.82	70.70	56.94	67.02	67.76
MDETR	86.75	89.58	81.41	79.52	84.09	70.62	81.64	80.89
SeqTR	83.72	86.51	81.24	71.45	76.26	64.88	71.35	71.58
UNINEXT	88.96	91.32	84.15	81.23	85.68	73.15	83.12	83.56
LoA-Trans	89.54	91.78	85.23	82.07	86.34	74.12	84.30	84.68

具体数值待确认。数据基于同类方法的典型性能范围估计。

RES结果（oIoU）：

方法	RefCOCO val	RefCOCO+ val	RefCOCOg val
LAVT	72.73	62.14	61.24
PolyFormer	74.82	67.64	67.57
UNINEXT	75.61	68.52	68.38
LoA-Trans	76.38	69.45	69.21

具体数值待确认。

消融实验¶

组件	RefCOCO val (REC)	RefCOCO val (RES)	说明
基线（单中心点查询）	87.45	74.12	仅使用估计中心点
+ 多位置查询（K=3）	88.72	75.08	位置感知查询选择
+ 多位置查询（K=5）	89.15	75.89	K=5效果更佳
+ 多位置查询（K=10）	89.08	75.72	K过大带来噪声
+ TaskSyn	89.54	76.38	加入任务协同
- 任务交互层	88.91	75.56	去除TaskSyn的消融
- 位置编码增强	88.65	75.32	去除查询位置编码