Referring Expression Comprehension for Small Objects¶

会议: ICCV 2025
arXiv: 2510.03701
代码: GitHub
领域: 自动驾驶
关键词: 指称表达理解, 小目标检测, 参数高效微调, 渐进缩放, GroundingDINO

一句话总结¶

提出 SOREC 数据集（10万对小目标指称表达和 bounding box）和 PIZA 适配器模块（渐进式迭代缩放），使 GroundingDINO 等预训练模型能以自回归方式逐步放大定位极小目标，在自动驾驶场景中大幅提升小目标 REC 精度。

研究背景与动机¶

指称表达理解（REC）旨在根据自然语言描述定位图像中的特定目标。当前 SOTA 模型在 RefCOCO 等标准数据集上已达 90% 以上准确率，但在极小目标定位上仍面临重大挑战：

缺乏数据集：现有 REC 数据集（RefCOCO 等）主要包含中等及以上尺寸的目标，缺少针对小目标的标注。SOREC 中目标 bounding box 平均仅占图像面积的 0.05%——远小于常规目标。

预训练-微调鸿沟：大规模预训练模型（如 GroundingDINO）在正常尺寸目标上表现优异，但面对极小目标时，低分辨率特征无法提供足够的细粒度信息。直接缩放图像到模型输入大小会丢失小目标的关键细节。

应用需求紧迫：自动驾驶中远处的行人、交通标志、路灯等小目标的检测对安全至关重要，但现有方法在这些场景下表现不佳。

核心洞察：人类面对小目标时会先粗定位再逐步放大。PIZA 模仿这一行为，通过自回归式缩放逐步聚焦目标。

方法详解¶

整体框架¶

PIZA（Progressive-Iterative Zooming Adapter）将小目标定位建模为搜索过程。给定预训练模型 \(F\)，PIZA 扩展其为 \(F_{\bigcirc *}\)，以自回归方式预测一序列 bounding box：

\[P = (\mathbf{b}_0, \mathbf{b}_1, \cdots, \mathbf{b}_T)\]

其中 \(\mathbf{b}_0\) 覆盖整张图像，\(\mathbf{b}_T\) 为最终定位的小目标。每步预测：

\[\hat{\mathbf{b}}_{i+1} = F_{\bigcirc *}(\mathbf{x}_i, \mathbf{t}, \mathbf{b}_{0:i})\]

\(\mathbf{x}_i\) 是第 \(i\) 步裁剪后的图像区域。

关键设计¶

PIZA 模块（缩放步嵌入）：受扩散模型时间步嵌入的启发，PIZA 学习"缩放步嵌入"来表示搜索过程的进展。具体流程：
- 从 bounding box 序列 \(\mathbf{b}_{0:i}\) 提取 6 维低级特征（归一化尺寸、相对尺寸、归一化宽高、中心坐标）
- 通过可学习 Fourier 嵌入 + Transformer 编码器 + 平均池化提取嵌入 \(\mathbf{h} \in \mathbb{R}^d\)
- 两个预测头：EOS 头预测是否停止搜索（二分类），Progress 头预测搜索进度 \(\hat{z} \in [0,1]\)
- 总参数量仅 0.27M，特征维度为 16
三种参数高效微调集成方式：PIZA 可灵活集成到不同 PEFT 方法中：
- PIZA-CoOp：将缩放步嵌入 \(\mathbf{h}\) 插入到文本 prompt 的可学习嵌入序列中
- PIZA-LoRA：将 \(\mathbf{h}\) 注入 LoRA 的瓶颈层：\(W\mathbf{x} + BA\mathbf{x} + BC\mathbf{h}\)
- PIZA-Adapter+：将 \(\mathbf{h}\) 加到 Adapter+ 的通道缩放层输出上
扩展训练数据集构建：为训练自回归缩放过程，需要构建搜索过程的 ground truth。核心步骤：
- 从预训练数据集估计 bounding box 面积比分布 \(p(r)\)
- 使用指数加权方案确定每步缩放因子 \(z_j^*\)，兼顾初始步的精确度
- 宽高比从全图逐步过渡到目标的宽高比
- 生成 [CONT] 和 [EOS] 标签用于训练停止决策

损失函数 / 训练策略¶

基于 GroundingDINO 的对比损失和定位损失
每个 mini-batch 随机采样搜索过程中的某一步进行前向计算
AdamW 优化器，学习率 \(2 \times 10^{-4}\)，epoch 3 时衰减 0.5，共训练 5 epochs
LoRA 应用于所有 self-attention 和 cross-attention 模块，rank=16
Adapter+ 插入每个 self-attention 和 FFN 模块后

实验关键数据¶

主实验¶

SOREC 数据集上的参数高效微调结果（Train-L）

方法	参数量	Val mAcc	Test-A mAcc	Test-B mAcc	Test-A Acc50	Test-B Acc50
Zero-shot	0	0.2	0.3	0.0	1.0	0.2
Full fine-tuning	173.0M	37.4	43.8	30.5	69.6	55.6
LoRA	1.3M	25.2	30.7	19.7	50.2	37.3
PIZA-LoRA	1.5M	34.5	39.3	29.0	54.0	43.4
Adapter+	3.3M	34.6	40.7	27.6	65.9	51.3
PIZA-Adapter+	3.5M	39.0	45.1	31.7	66.2	52.2

消融实验¶

PIZA 各组件贡献（PIZA-Adapter+, Train-S, mAcc/Acc50/Acc75）

配置	Val	Test-A	Test-B	说明
w/o PIZA module	26.0/48.1/24.8	32.0/55.0/33.3	20.3/40.4/17.9	无缩放：基线
w/o emb. insertion	36.7/53.2/41.7	42.8/59.2/49.9	30.3/45.8/34.0	无嵌入注入
Full PIZA-Adapter+	36.8/53.5/41.8	43.1/59.6/50.1	30.4/45.9/34.1	完整模型

Adapter 瓶颈维度影响

维度 d	参数量	Val mAcc	Test-A mAcc
32	1.6M	35.1	40.8
64	1.9M	36.6	42.2
128	2.4M	36.4	41.8
256	3.5M	36.8	43.1

关键发现¶

Zero-shot 基线近乎为零（mAcc 0.2%），说明预训练模型完全无法处理极小目标
PIZA-Adapter+ 以仅 3.5M 参数（vs 173M）超越全微调基线，体现渐进缩放的强大能力
去除 PIZA 模块后性能从 36.8 暴跌至 26.0（mAcc），确认自回归缩放是核心
Test-A（交通标志等）比 Test-B（其他小目标）准确率高约 10+%
更大训练集持续提升性能，表明数据集可进一步扩展
平均 2.11 步缩放即可完成定位

亮点与洞察¶

数据集贡献突出：SOREC 是首个面向自动驾驶小目标的 REC 数据集，目标面积仅 0.05%，表达平均 25.5 词（RefCOCO 仅 3.5 词），填补了重要空白
模仿人类搜索策略：渐进缩放的思路自然且高效，类似人类"先环顾再聚焦"的视觉搜索行为
参数高效：PIZA 模块仅 0.27M 参数，通过灵活嵌入缩放步信息到不同 PEFT 框架，实现了少量参数的大幅性能提升
数据集构建流程可复制：半自动化构建流程（SAM+GPT-4o+众包），为其他场景创建类似数据集提供了范例

局限与展望¶

自回归缩放增加推理次数（平均 2-3 步），对实时性要求高的场景可能不够快
目前仅在 GroundingDINO 上验证，其他基础模型（如 GLIPv2、Florence）的迁移性待验证
数据集由 GPT-4o 生成表达，可能存在语言多样性不足的问题（18.45% 有小错误）
缩放步数的自动决策（EOS 预测）的可靠性有待进一步研究
可探索与多尺度特征提取等传统小目标检测方法的结合

评分¶

新颖性: ⭐⭐⭐⭐ — 渐进缩放定位的思路新颖直觉，数据集填补重要空白
实验充分度: ⭐⭐⭐⭐ — 多种 PEFT 方法对比，消融充分，但缺乏与其他 REC 方法的对比
写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰，动机阐述到位，数据集构建描述详尽
价值: ⭐⭐⭐⭐ — 数据集和方法对小目标理解领域均有重要贡献