Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting¶
会议: CVPR 2025
arXiv: 2505.21943
代码: https://github.com/Elin24/P2RLoss (有)
领域: 自动驾驶 / 人群计数
关键词: 半监督人群计数, 点到区域匹配, 伪标签, 梯度诊断, P2R损失
一句话总结¶
发现半监督人群计数中点到点(P2P)匹配导致模型对未标注数据过度激活(通过 PSAM 梯度诊断可视化),提出点到区域(P2R)匹配——将每个 GT/伪标签点扩展为局部区域并传播置信度,在 ShanghaiTech-A 5% 标注下 MAE 69.9(前 SOTA 83.7),且比 P2P 快 68 倍。
研究背景与动机¶
领域现状¶
领域现状:基于点标注的人群计数将每个人头标注为一个点,通过学习点分类图实现计数。半监督方法用教师模型生成伪标签再训练学生模型。
现有痛点:P2P 匹配(匈牙利算法将预测点与伪标签点一一匹配)在半监督中失效——伪标签的背景点没有负样本监督(因为不确定哪些是真背景),导致模型对所有位置都输出高响应,计数暴增。
核心矛盾:P2P 只监督前景点(匹配上的),不监督背景——学生模型在未标注数据上收不到"这里没有人"的信号,于是"宁可多检不可漏检"。
切入角度:(1)用 PSAM(Point-Specific Activation Map,基于 Jacobian 的梯度可视化)诊断失败原因——证实是背景梯度消失;(2)将点扩展为区域,让区域内所有像素都参与监督——背景像素获得置信度加权的负样本信号。
核心 idea:点→区域扩展 + 区域内置信度传播 = 恢复背景梯度,解决半监督P2P的过度激活。
解决思路¶
本文目标:### 关键设计
- PSAM 梯度诊断:\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。
方法详解¶
关键设计¶
-
PSAM 梯度诊断:\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。P2P 无标签训练后 PSAM 值大且弥散(模型看哪里都像人头),而有标签模型 PSAM 聚焦在人头处
-
P2R 匹配:每个标签点周围半径 μ 内构成一个区域。匹配从点对点变为区域对区域——区域内所有像素按距离中心的远近获得置信度权重。比 P2P 快 68 倍(无需匈牙利算法)
-
伪标签置信度传播:\(Z = \text{diag}[M_{st}\zeta + (1_n - \beta)]\)——伪标签的置信度从点传播到整个区域,高置信区域强监督、低置信区域弱监督
损失函数 / 训练策略¶
有标签:P2P BCE。无标签:P2R BCE + 置信度加权。区域半径 μ~10-15 像素。
实验关键数据¶
| 数据集 (5% 标注) | P2R | OT-M (前SOTA) | 仅标注 |
|---|---|---|---|
| SHA MAE↓ | 69.9% | 83.7% | 93.7% |
| SHB MAE↓ | 9.1% | 12.6% | — |
| QNRF MAE↓ | 100.1 | 118.4 | — |
| P2R 推理时间 | 0.0064s | — | P2P: 0.4307s |
消融实验¶
- PSAM 诊断清晰显示了 P2P 的背景过度激活问题
- P2R 恢复了背景像素的梯度流——模型重新学会"哪里没有人"
- 区域半径 μ 控制背景抑制强度(10-15 像素经验最优)
关键发现¶
- P2P 在半监督中根本性失效——不是伪标签质量差,而是损失函数结构有缺陷
- 68× 加速——P2R 无需匈牙利匹配,直接区域赋值
- PSAM 是通用诊断工具——可用于任何点检测任务的失败分析
亮点与洞察¶
- PSAM 诊断→P2R 解法的完整逻辑链——先理解为什么失败,再设计针对性解法
- 从点到区域的简洁推广——保留了点标注的经济性,通过区域扩展获得了密集监督的效果
局限与展望¶
- 无偏移回归(仅分类)
- 区域半径 μ 需手动设定
- 假设局部区域近似圆形
评分¶
- 新颖性: ⭐⭐⭐⭐ PSAM 诊断+P2R 解法的组合有洞察力
- 实验充分度: ⭐⭐⭐⭐ 4 数据集+计算效率对比
- 写作质量: ⭐⭐⭐⭐⭐ 因果链条清晰
- 价值: ⭐⭐⭐⭐ 解决了半监督计数的根本性缺陷
相关论文¶
- [CVPR 2025] Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation
- [CVPR 2025] PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds
- [CVPR 2025] Unlocking Generalization Power in LiDAR Point Cloud Registration
- [CVPR 2025] RENO: Real-Time Neural Compression for 3D LiDAR Point Clouds
- [CVPR 2025] SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization