Exploring Contextual Attribute Density in Referring Expression Counting (CAD-GD)¶
会议: CVPR 2025
arXiv: 2503.12460
代码: github.com/Xu3XiWang/CAD-GD
领域: 模型压缩 / 目标计数
关键词: 指代表达计数, 上下文属性密度, 开放世界检测, GroundingDINO, 密度图
一句话总结¶
提出上下文属性密度(Contextual Attribute Density, CAD)概念来增强指代表达计数(Referring Expression Counting),通过 U 形密度估计器、CAD 注意力和动态查询初始化三个模块,在 REC-8K 数据集上相比 GroundingREC 降低了约 30% 的计数误差(MAE 从 6.80 降至 5.43)。
研究背景与动机¶
领域现状:指代表达计数(REC)是一种新兴的计数任务,需要根据细粒度文本描述(如"walking person"而非简单的"person")来计数特定属性的对象。GroundingREC 是第一个基于 GroundingDINO 的 REC 基线。
现有痛点:GroundingREC 在处理细粒度属性时存在两类错误:(1)过度计数——过度关注类别信息而忽略细粒度属性,将错误属性的对象也计入;(2)遗漏计数——由于遮挡和尺度变化,漏掉具有指定属性的对象。
核心矛盾:REC 本质上是一个检测-计数流程(一对一匹配),缺乏对空间密度分布的感知。传统计数方法已证明"视觉密度"对尺度鲁棒的空间分布建模至关重要,但现有开放世界模型忽略了这一能力。
切入角度:类比"视觉密度"概念,定义"上下文属性密度"——度量某个细粒度属性在不同尺度的视觉区域中的信息强度。通过建模 CAD 来引导模型更准确地对齐属性信息与视觉模式。
核心 idea:为开放世界检测器引入属性级密度图监督,使其能感知细粒度文本描述对应的属性空间分布。
方法详解¶
整体框架¶
基于 GroundingDINO 构建 CAD-GD 框架:图像和文本分别通过 backbone 提取特征后,经 Feature Enhancer 得到多尺度视觉特征 \(\{F_{vi}\}_{i=1}^{4}\) 和文本特征 \(F_t\)。然后通过三大模块注入 CAD 信息:CAD 生成模块产生密度特征、CAD 注意力模块增强视觉特征、CAD 动态查询模块初始化解码器查询。
关键设计¶
-
CAD 生成模块(U-shape CADE):先将视觉特征投射到文本空间计算相似性 \(S_i = \text{Proj}(F_{vi}) \cdot F_t\),然后将相似性特征与视觉特征一起送入 U 形估计器,生成多尺度 CAD 特征 \(\{D_i\}_{i=1}^{4}\),最终输出密度图并用 \(\ell_2\) 损失监督(GT 密度图由高斯核生成)
-
CAD 注意力模块:分两步——空间注意力用 CAD 特征的通道池化(max+avg)生成空间权重图增强前景区域;通道注意力通过共享 MLP 对空间注意力增强后的特征做通道级加权,跨尺度区分不同属性
-
CAD 动态查询初始化:先用文本特征动态初始化查询内容(Text Init,\(\dot{Q} = (Q \times (F_t \times M)^\top) \times F_t\)),再用 CAD 特征通过交叉注意力进一步细化(Density Init),使不同指代表达的查询在特征空间中易于区分
损失函数 / 训练策略¶
其中 \(\mathcal{L}_{\text{loc}}\) 是标准的定位损失(匈牙利匹配 + L1/GIoU),\(\mathcal{L}_{\text{density}} = \|D_{\text{pred}} - D_{\text{gt}}\|_2^2\) 是密度图的 \(\ell_2\) 回归损失。训练冻结视觉和文本 backbone,使用 AdamW,学习率 1e-5,20 个 epoch,第 10 epoch 衰减 10 倍。
实验关键数据¶
| 方法 | Backbone | Val MAE↓ | Val RMSE↓ | Val F1↑ | Test MAE↓ | Test RMSE↓ | Test F1↑ |
|---|---|---|---|---|---|---|---|
| GroundingDINO | Swin-T | 9.03 | 21.98 | 0.65 | 8.88 | 21.95 | 0.66 |
| GroundingREC | Swin-T | 6.80 | 18.13 | 0.68 | 6.50 | 19.79 | 0.69 |
| CAD-GD | Swin-T | 5.43 | 15.01 | 0.70 | 5.29 | 17.08 | 0.72 |
| GroundingREC* | Swin-B | 5.66 | 15.24 | 0.71 | 5.42 | 18.47 | 0.70 |
| CAD-GD | Swin-B | 4.83 | 13.52 | 0.75 | 4.94 | 14.65 | 0.76 |
消融实验¶
| 模块组合 | Val MAE | Val RMSE | Val F1 |
|---|---|---|---|
| Baseline (无 CAD) | 6.52 | 17.72 | 0.665 |
| +CAD 生成 | 6.17 | 16.38 | 0.673 |
| +空间注意力 | 5.88 | 16.43 | 0.691 |
| +通道注意力 | 5.61 | 16.28 | 0.690 |
| +Text Init | 5.67 | 14.43 | 0.690 |
| +Density Init | 5.43 | 15.01 | 0.700 |
| +密度推理策略 | 4.83 | 13.52 | 0.695 |
关键发现¶
- 密度图推理策略(用密度图估计数量代替阈值)可额外降低 11% MAE
- CAD 密度图能区分同一类别不同属性的空间分布(如"bluish pen" vs "greenish pen")
- 零样本 FSC-147 计数上也超越 GroundingREC(MAE 9.30 vs 10.06)
亮点与洞察¶
- 概念创新——首次将密度估计引入跨模态的指代表达计数,定义了"上下文属性密度"这一新概念
- 查询可视化有说服力——t-SNE 可视化清楚展示 CAD 初始化后不同属性查询能有效分离
- 即插即用——CAD 模块可增强任何基于 DETR 类结构的开放世界检测器
局限与展望¶
- GT 密度图使用固定大小高斯核(σ=15),未适应目标尺度
- 密度推理策略提升计数但略微降低定位指标,两者存在不匹配
- 仅在 REC-8K(~8000 张图)上验证,数据集规模较小
- 对无关属性的复杂语义组合(如否定表达"not in a bus")仍有改进空间
零样本计数泛化(FSC-147)¶
| 方法 | Val MAE | Val RMSE | Test MAE | Test RMSE |
|---|---|---|---|---|
| GroundingREC | 10.06 | 58.62 | 10.12 | 107.19 |
| CountGD | 12.14 | 47.51 | 12.98 | 98.35 |
| CAD-GD | 9.30 | 40.96 | 10.35 | 86.88 |
相关工作¶
- GroundingDINO / GroundingREC:开放世界检测→REC 基线
- 密度估计计数:CounTR, LOCA, CACViT, DAVE 等——证明密度特征对计数任务的价值
- 文本引导计数:CLIP-Count, CounTX, CountGD, VLCounter——跨模态计数
- 密度建模在其他任务:DQ-DETR(小目标检测)、Cholakka(实例分割)——密度先验的普适性
评分¶
- 新颖性: ⭐⭐⭐⭐ CAD 概念新颖,密度+检测的融合有启发性
- 实验充分度: ⭐⭐⭐⭐ 消融详尽,含零样本泛化验证
- 写作质量: ⭐⭐⭐⭐ 清晰,可视化丰富
- 价值: ⭐⭐⭐⭐ 为开放世界计数提供了新视角
相关论文¶
- [CVPR 2025] ECVC: Exploiting Non-Local Correlations in Multiple Frames for Contextual Video Compression
- [CVPR 2025] AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
- [ICCV 2025] StolenLoRA: Exploring LoRA Extraction Attacks via Synthetic Data
- [ACL 2026] Mem^p: Exploring Agent Procedural Memory
- [AAAI 2026] Stratified Knowledge-Density Super-Network for Scalable Vision Transformers