Exploring Contextual Attribute Density in Referring Expression Counting (CAD-GD)¶

会议: CVPR 2025
arXiv: 2503.12460
代码: github.com/Xu3XiWang/CAD-GD
领域: 模型压缩 / 目标计数
关键词: 指代表达计数, 上下文属性密度, 开放世界检测, GroundingDINO, 密度图

一句话总结¶

提出上下文属性密度（Contextual Attribute Density, CAD）概念来增强指代表达计数（Referring Expression Counting），通过 U 形密度估计器、CAD 注意力和动态查询初始化三个模块，在 REC-8K 数据集上相比 GroundingREC 降低了约 30% 的计数误差（MAE 从 6.80 降至 5.43）。

研究背景与动机¶

领域现状：指代表达计数（REC）是一种新兴的计数任务，需要根据细粒度文本描述（如"walking person"而非简单的"person"）来计数特定属性的对象。GroundingREC 是第一个基于 GroundingDINO 的 REC 基线。

现有痛点：GroundingREC 在处理细粒度属性时存在两类错误：（1）过度计数——过度关注类别信息而忽略细粒度属性，将错误属性的对象也计入；（2）遗漏计数——由于遮挡和尺度变化，漏掉具有指定属性的对象。

核心矛盾：REC 本质上是一个检测-计数流程（一对一匹配），缺乏对空间密度分布的感知。传统计数方法已证明"视觉密度"对尺度鲁棒的空间分布建模至关重要，但现有开放世界模型忽略了这一能力。

切入角度：类比"视觉密度"概念，定义"上下文属性密度"——度量某个细粒度属性在不同尺度的视觉区域中的信息强度。通过建模 CAD 来引导模型更准确地对齐属性信息与视觉模式。

核心 idea：为开放世界检测器引入属性级密度图监督，使其能感知细粒度文本描述对应的属性空间分布。

方法详解¶

整体框架¶

基于 GroundingDINO 构建 CAD-GD 框架：图像和文本分别通过 backbone 提取特征后，经 Feature Enhancer 得到多尺度视觉特征 \(\{F_{vi}\}_{i=1}^{4}\) 和文本特征 \(F_t\)。然后通过三大模块注入 CAD 信息：CAD 生成模块产生密度特征、CAD 注意力模块增强视觉特征、CAD 动态查询模块初始化解码器查询。

关键设计¶

CAD 生成模块（U-shape CADE）：先将视觉特征投射到文本空间计算相似性 \(S_i = \text{Proj}(F_{vi}) \cdot F_t\)，然后将相似性特征与视觉特征一起送入 U 形估计器，生成多尺度 CAD 特征 \(\{D_i\}_{i=1}^{4}\)，最终输出密度图并用 \(\ell_2\) 损失监督（GT 密度图由高斯核生成）
CAD 注意力模块：分两步——空间注意力用 CAD 特征的通道池化（max+avg）生成空间权重图增强前景区域；通道注意力通过共享 MLP 对空间注意力增强后的特征做通道级加权，跨尺度区分不同属性
CAD 动态查询初始化：先用文本特征动态初始化查询内容（Text Init，\(\dot{Q} = (Q \times (F_t \times M)^\top) \times F_t\)），再用 CAD 特征通过交叉注意力进一步细化（Density Init），使不同指代表达的查询在特征空间中易于区分

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{loc}} + \alpha \cdot \mathcal{L}_{\text{density}}\]

其中 \(\mathcal{L}_{\text{loc}}\) 是标准的定位损失（匈牙利匹配 + L1/GIoU），\(\mathcal{L}_{\text{density}} = \|D_{\text{pred}} - D_{\text{gt}}\|_2^2\) 是密度图的 \(\ell_2\) 回归损失。训练冻结视觉和文本 backbone，使用 AdamW，学习率 1e-5，20 个 epoch，第 10 epoch 衰减 10 倍。

实验关键数据¶

方法	Backbone	Val MAE↓	Val RMSE↓	Val F1↑	Test MAE↓	Test RMSE↓	Test F1↑
GroundingDINO	Swin-T	9.03	21.98	0.65	8.88	21.95	0.66
GroundingREC	Swin-T	6.80	18.13	0.68	6.50	19.79	0.69
CAD-GD	Swin-T	5.43	15.01	0.70	5.29	17.08	0.72
GroundingREC*	Swin-B	5.66	15.24	0.71	5.42	18.47	0.70
CAD-GD	Swin-B	4.83	13.52	0.75	4.94	14.65	0.76

消融实验¶

模块组合	Val MAE	Val RMSE	Val F1
Baseline (无 CAD)	6.52	17.72	0.665
+CAD 生成	6.17	16.38	0.673
+空间注意力	5.88	16.43	0.691
+通道注意力	5.61	16.28	0.690
+Text Init	5.67	14.43	0.690
+Density Init	5.43	15.01	0.700
+密度推理策略	4.83	13.52	0.695

关键发现¶

密度图推理策略（用密度图估计数量代替阈值）可额外降低 11% MAE
CAD 密度图能区分同一类别不同属性的空间分布（如"bluish pen" vs "greenish pen"）
零样本 FSC-147 计数上也超越 GroundingREC（MAE 9.30 vs 10.06）

亮点与洞察¶

概念创新——首次将密度估计引入跨模态的指代表达计数，定义了"上下文属性密度"这一新概念
查询可视化有说服力——t-SNE 可视化清楚展示 CAD 初始化后不同属性查询能有效分离
即插即用——CAD 模块可增强任何基于 DETR 类结构的开放世界检测器

局限与展望¶

GT 密度图使用固定大小高斯核（σ=15），未适应目标尺度
密度推理策略提升计数但略微降低定位指标，两者存在不匹配
仅在 REC-8K（~8000 张图）上验证，数据集规模较小
对无关属性的复杂语义组合（如否定表达"not in a bus"）仍有改进空间

零样本计数泛化（FSC-147）¶

方法	Val MAE	Val RMSE	Test MAE	Test RMSE
GroundingREC	10.06	58.62	10.12	107.19
CountGD	12.14	47.51	12.98	98.35
CAD-GD	9.30	40.96	10.35	86.88

评分¶

新颖性: ⭐⭐⭐⭐ CAD 概念新颖，密度+检测的融合有启发性
实验充分度: ⭐⭐⭐⭐ 消融详尽，含零样本泛化验证
写作质量: ⭐⭐⭐⭐ 清晰，可视化丰富
价值: ⭐⭐⭐⭐ 为开放世界计数提供了新视角