跳转至

Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting

会议: CVPR 2025
arXiv: 2505.21943
代码: https://github.com/Elin24/P2RLoss (有)
领域: 自动驾驶 / 人群计数
关键词: 半监督人群计数, 点到区域匹配, 伪标签, 梯度诊断, P2R损失

一句话总结

发现半监督人群计数中点到点(P2P)匹配导致模型对未标注数据过度激活(通过 PSAM 梯度诊断可视化),提出点到区域(P2R)匹配——将每个 GT/伪标签点扩展为局部区域并传播置信度,在 ShanghaiTech-A 5% 标注下 MAE 69.9(前 SOTA 83.7),且比 P2P 快 68 倍。

研究背景与动机

领域现状

领域现状:基于点标注的人群计数将每个人头标注为一个点,通过学习点分类图实现计数。半监督方法用教师模型生成伪标签再训练学生模型。

现有痛点:P2P 匹配(匈牙利算法将预测点与伪标签点一一匹配)在半监督中失效——伪标签的背景点没有负样本监督(因为不确定哪些是真背景),导致模型对所有位置都输出高响应,计数暴增。

核心矛盾:P2P 只监督前景点(匹配上的),不监督背景——学生模型在未标注数据上收不到"这里没有人"的信号,于是"宁可多检不可漏检"。

切入角度:(1)用 PSAM(Point-Specific Activation Map,基于 Jacobian 的梯度可视化)诊断失败原因——证实是背景梯度消失;(2)将点扩展为区域,让区域内所有像素都参与监督——背景像素获得置信度加权的负样本信号。

核心 idea:点→区域扩展 + 区域内置信度传播 = 恢复背景梯度,解决半监督P2P的过度激活。

解决思路

本文目标:### 关键设计

  1. PSAM 梯度诊断\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。

方法详解

关键设计

  1. PSAM 梯度诊断\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。P2P 无标签训练后 PSAM 值大且弥散(模型看哪里都像人头),而有标签模型 PSAM 聚焦在人头处

  2. P2R 匹配:每个标签点周围半径 μ 内构成一个区域。匹配从点对点变为区域对区域——区域内所有像素按距离中心的远近获得置信度权重。比 P2P 快 68 倍(无需匈牙利算法)

  3. 伪标签置信度传播\(Z = \text{diag}[M_{st}\zeta + (1_n - \beta)]\)——伪标签的置信度从点传播到整个区域,高置信区域强监督、低置信区域弱监督

损失函数 / 训练策略

有标签:P2P BCE。无标签:P2R BCE + 置信度加权。区域半径 μ~10-15 像素。

实验关键数据

数据集 (5% 标注) P2R OT-M (前SOTA) 仅标注
SHA MAE↓ 69.9% 83.7% 93.7%
SHB MAE↓ 9.1% 12.6%
QNRF MAE↓ 100.1 118.4
P2R 推理时间 0.0064s P2P: 0.4307s

消融实验

  • PSAM 诊断清晰显示了 P2P 的背景过度激活问题
  • P2R 恢复了背景像素的梯度流——模型重新学会"哪里没有人"
  • 区域半径 μ 控制背景抑制强度(10-15 像素经验最优)

关键发现

  • P2P 在半监督中根本性失效——不是伪标签质量差,而是损失函数结构有缺陷
  • 68× 加速——P2R 无需匈牙利匹配,直接区域赋值
  • PSAM 是通用诊断工具——可用于任何点检测任务的失败分析

亮点与洞察

  • PSAM 诊断→P2R 解法的完整逻辑链——先理解为什么失败,再设计针对性解法
  • 从点到区域的简洁推广——保留了点标注的经济性,通过区域扩展获得了密集监督的效果

局限与展望

  • 无偏移回归(仅分类)
  • 区域半径 μ 需手动设定
  • 假设局部区域近似圆形

评分

  • 新颖性: ⭐⭐⭐⭐ PSAM 诊断+P2R 解法的组合有洞察力
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集+计算效率对比
  • 写作质量: ⭐⭐⭐⭐⭐ 因果链条清晰
  • 价值: ⭐⭐⭐⭐ 解决了半监督计数的根本性缺陷

相关论文