PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination¶
会议: ICCV 2025
arXiv: 2509.04833
代码: GitHub
领域: 多模态VLM / 视觉定位 / 指代表达理解
关键词: visual grounding, proposal-based, contrastive learning, referring expression, target existence discrimination
一句话总结¶
提出PropVG,首个无需预训练检测器的端到端proposal-based视觉定位框架,将视觉定位分解为前景proposal生成+基于对比学习的指代评分两阶段,并引入多粒度目标判别模块(MTD)融合物体级和语义级信息判断目标是否存在,在10个数据集上刷新SOTA且推理速度比传统proposal方法快4倍。
研究背景与动机¶
视觉定位任务演进: - 经典VG:REC(给框)和RES(给mask),一句话对应一个目标 - 广义VG(GVG):扩展到零个或多个目标,需要判断目标是否存在
两类主流框架的矛盾: - 传统两阶段proposal方法(MAttNet等):依赖预训练检测器生成候选框再匹配表达式。优势是能感知全局前景物体,劣势是性能差、速度慢(320ms/帧) - 直接指代方法(TransVG, SimVG等):端到端直接预测目标位置。优势是简洁高效,劣势是只关注被指代目标,忽略其他前景物体,削弱了对"参照性"的理解和可解释性
两个待解决的关键问题: - (1) 如何在保持proposal的全局感知优势的同时,消除对预训练检测器的依赖,实现端到端训练? - (2) 在广义场景中,如何准确判断目标是否存在?现有方法仅用全局或单粒度预测,忽略了多粒度信息的互补
核心insight:视觉定位可以自然分解为"哪些是前景物体"(检测问题)+"哪个是被指代的"(匹配问题),两步端到端联合训练可以同时获得全局感知能力和指代理解能力。
方法详解¶
整体框架¶
输入图像 \(\mathcal{I}\) 和文本表达式 \(\mathcal{T}\) → BEiT-3多模态编码器 → SimFPN多尺度特征 → 双分支:(1) UNet解码器+SegHead做全局分割 \(M_{seg}\);(2) 多尺度可变形解码器+DetHead生成前景proposal → CRS模块计算指代分数 → MTD模块判断目标是否存在。
关键设计1:端到端Proposal-based框架¶
前景Proposal阶段: - 初始化 \(N\) 个可学习查询 \(Q_{init}\) - 通过多尺度可变形解码器与SimFPN多尺度特征交互,生成proposal查询 \(Q_{prop} \in \mathbb{R}^{N \times C}\) - DetHead输出前景bbox \(P_{bbox} \in \mathbb{R}^{N \times 4}\) 和置信度 \(P_{score} \in \mathbb{R}^{N \times 2}\) - 用Hungarian匹配将查询分配给所有前景物体(不仅是被指代的目标),提供全局监督
指代评分阶段: - Query Proj.将 \(Q_{prop}\) 映射到 \(Q_{prop}'\) 用于指代分类 - CRS模块计算每个query的指代分数
与传统两阶段方法的关键区别:不依赖外部预训练检测器,proposal和指代在统一框架中端到端训练。
关键设计2:Contrastive-based Refer Scoring(CRS)¶
CRS模块结合句子级和词级对比学习来评估每个proposal与文本表达式的相关性。
句子级对比学习:计算query特征 \(Q_p\) 与全局文本特征 \(f_s\) 的相似度矩阵 \(S_{sent} \in \mathbb{R}^{N \times 1}\)。全局文本特征通过valid mask pooling获得:
词级对比学习:计算query特征与词级文本特征 \(f_t\) 的相似度矩阵 \(S_{word} \in \mathbb{R}^{N \times N_t}\)。
自适应加权融合:用可学习权重 \(w_s\)(由MLP+sigmoid从 \(f_s\) 得到)动态平衡两个层级的贡献:
相似度计算使用带可学习温度参数 \(T\)(初始化为0.07)的余弦相似度:
关键设计3:Multi-granularity Target Discrimination(MTD)¶
MTD融合物体级(检测分支的指代分数)和语义级(分割分支的mask预测)信息来判断目标是否存在。
Score Prior Cross Attention (SPCA):在标准注意力基础上注入先验分数信息:
其中 \(S\) 包括 \(S_{ref}\)(物体级先验)和 \(M_{seg}\)(语义级先验)。
最终目标存在分数:融合三个粒度的信息:
其中TAS(TopK Average Score)计算分割预测中Top-K像素的平均分数,缓解高置信异常值的影响。
损失函数¶
默认 \(\lambda_{det}=0.1\), \(\lambda_{exist}=0.2\), \(\lambda_{ref}=1.0\)。
实验¶
评估范围¶
10个数据集:RefCOCO/+/g(REC/RES)、gRefCOCO(GREC/GRES)、R-RefCOCO/+/g、Ref-ZOM
主实验结果(REC - RefCOCO)¶
| 方法 | Backbone | val | testA | testB |
|---|---|---|---|---|
| MAttNet*(传统proposal) | ResNet-101 | 76.65 | 81.14 | 69.99 |
| SimVG-DB | BEiT3-ViT-B | 91.47 | 93.65 | 87.94 |
| OneRef | BEiT3-ViT-B | 91.89 | 94.31 | 88.58 |
| PropVG | BEiT3-ViT-B | 92.70 | 95.07 | 89.58 |
PropVG在RefCOCO上全面超越同backbone的直接指代方法,比MAttNet快4倍且性能提升+14%。
广义视觉定位(GRES - gRefCOCO)¶
| 方法 | val gIoU | testA gIoU | testB gIoU |
|---|---|---|---|
| HDC (Swin-B) | 68.28 | 72.52 | 63.85 |
| PropVG | 73.29 | 74.43 | 65.87 |
GREC检测任务¶
| 方法 | val F1 | val N-acc |
|---|---|---|
| SimVG | 62.1 | 54.7 |
| PropVG | 72.2 | 72.8 |
PropVG在GREC上F1超SimVG +10.1%,"无目标"判别准确率超+18.1%。
消融实验¶
| 组件 | F1score | N-acc. | gIoU |
|---|---|---|---|
| Basic Setting | 63.41 | 64.11 | 65.98 |
| + SimFPN | 65.14 | 68.02 | 66.86 |
| + UNet Decoder | 65.87 | 69.19 | 68.16 |
| + Multi-scale Deformable Decoder | 67.44 | 69.47 | 69.10 |
| + Channel Splitting | 67.98 | 70.44 | 69.59 |
| + Query Proj. (Baseline) | 68.81 | 70.39 | 69.85 |
| + CRS | 70.61 | 74.78 | 71.30 |
| + MTD | 72.20 | 72.83 | 73.29 |
| - 前景监督 | 66.83 | 61.06 | 66.37 |
关键发现¶
- CRS带来 +1.8 F1score 和 +4.4 N-acc.,词级与句级对比学习的自适应权重融合至关重要
- 移除前景监督导致性能下降约2%,证明proposal阶段的全局物体感知为指代评分提供了有价值的先验
- PropVG在推理速度上仅需76ms/帧,远优于传统proposal方法(MAttNet 320ms, PolyFormer 150ms, GroundingDINO 120ms)
- 在R-RefCOCO/+/g上rIoU提升9.5~11.2%,多目标和目标缺失场景收益最大
亮点与洞察¶
- 复兴proposal-based范式:通过端到端设计消除了传统两阶段方法的速度和性能瓶颈,证明proposal思路本身并不过时,问题在于实现方式
- 将VG重新定义为"检测+二分类":proposal阶段提供候选,指代阶段做二分决策,降低了任务复杂度
- 多粒度判别设计精巧:MTD将检测分数、分割预测、可学习query三路信息融合,乘法结构确保任何一路置信度低都会拉低最终分数
局限性¶
- 需要前景物体的标注进行proposal阶段的训练,标注成本增加
- 在无目标场景中依赖MTD的阈值设定(0.7),不同数据集可能需要调整
- 对比MLLM方法(GSVA-13B)在部分指标上仍有差距(但参数量0.2B vs 13B+)
- 未在开放词汇或零样本设定下评估
相关工作¶
- REC/RES:TransVG, LAVT, SeqTR, SimVG, OneRef
- GVG:ReLA, GREC, RefSegformer, HDC
- Proposal-based:MAttNet, NMTree, Ref-NMS
- MLLM方法:LISA, GSVA, GLaMM
评分¶
- 新颖性:4/5(端到端proposal-based + 多粒度目标判别,框架设计有新意)
- 技术深度:4/5(CRS的双层对比学习、MTD的SPCA机制设计合理)
- 实验充分度:5/5(10个数据集、丰富的消融、速度对比、与MLLM的参数量对比)
- 写作质量:4/5(结构清晰,图示全面)
相关论文¶
- [ACL 2025] taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades
- [CVPR 2025] Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers
- [NeurIPS 2025] DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding
- [ECCV 2024] GRACE: Graph-Based Contextual Debiasing for Fair Visual Question Answering
- [CVPR 2025] Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification