Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting¶

会议: CVPR 2025
arXiv: 2505.21943
代码: https://github.com/Elin24/P2RLoss (有)
领域: 自动驾驶 / 人群计数
关键词: 半监督人群计数, 点到区域匹配, 伪标签, 梯度诊断, P2R损失

一句话总结¶

发现半监督人群计数中点到点（P2P）匹配导致模型对未标注数据过度激活（通过 PSAM 梯度诊断可视化），提出点到区域（P2R）匹配——将每个 GT/伪标签点扩展为局部区域并传播置信度，在 ShanghaiTech-A 5% 标注下 MAE 69.9（前 SOTA 83.7），且比 P2P 快 68 倍。

研究背景与动机¶

领域现状¶

领域现状：基于点标注的人群计数将每个人头标注为一个点，通过学习点分类图实现计数。半监督方法用教师模型生成伪标签再训练学生模型。

现有痛点：P2P 匹配（匈牙利算法将预测点与伪标签点一一匹配）在半监督中失效——伪标签的背景点没有负样本监督（因为不确定哪些是真背景），导致模型对所有位置都输出高响应，计数暴增。

核心矛盾：P2P 只监督前景点（匹配上的），不监督背景——学生模型在未标注数据上收不到"这里没有人"的信号，于是"宁可多检不可漏检"。

切入角度：（1）用 PSAM（Point-Specific Activation Map，基于 Jacobian 的梯度可视化）诊断失败原因——证实是背景梯度消失；（2）将点扩展为区域，让区域内所有像素都参与监督——背景像素获得置信度加权的负样本信号。

核心 idea：点→区域扩展 + 区域内置信度传播 = 恢复背景梯度，解决半监督P2P的过度激活。

解决思路¶

本文目标：### 关键设计

PSAM 梯度诊断：\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。

方法详解¶

关键设计¶

PSAM 梯度诊断：\(H[q] = \max(\sum_k \nabla p[q] \odot F, 0)\)——对预测点的 Jacobian 可视化。P2P 无标签训练后 PSAM 值大且弥散（模型看哪里都像人头），而有标签模型 PSAM 聚焦在人头处
P2R 匹配：每个标签点周围半径 μ 内构成一个区域。匹配从点对点变为区域对区域——区域内所有像素按距离中心的远近获得置信度权重。比 P2P 快 68 倍（无需匈牙利算法）
伪标签置信度传播：\(Z = \text{diag}[M_{st}\zeta + (1_n - \beta)]\)——伪标签的置信度从点传播到整个区域，高置信区域强监督、低置信区域弱监督

损失函数 / 训练策略¶

有标签：P2P BCE。无标签：P2R BCE + 置信度加权。区域半径 μ~10-15 像素。

实验关键数据¶

数据集 (5% 标注)	P2R	OT-M (前SOTA)	仅标注
SHA MAE↓	69.9%	83.7%	93.7%
SHB MAE↓	9.1%	12.6%	—
QNRF MAE↓	100.1	118.4	—
P2R 推理时间	0.0064s	—	P2P: 0.4307s

消融实验¶

PSAM 诊断清晰显示了 P2P 的背景过度激活问题
P2R 恢复了背景像素的梯度流——模型重新学会"哪里没有人"
区域半径 μ 控制背景抑制强度（10-15 像素经验最优）

关键发现¶

P2P 在半监督中根本性失效——不是伪标签质量差，而是损失函数结构有缺陷
68× 加速——P2R 无需匈牙利匹配，直接区域赋值
PSAM 是通用诊断工具——可用于任何点检测任务的失败分析

亮点与洞察¶

PSAM 诊断→P2R 解法的完整逻辑链——先理解为什么失败，再设计针对性解法
从点到区域的简洁推广——保留了点标注的经济性，通过区域扩展获得了密集监督的效果

局限与展望¶

无偏移回归（仅分类）
区域半径 μ 需手动设定
假设局部区域近似圆形

评分¶

新颖性: ⭐⭐⭐⭐ PSAM 诊断+P2R 解法的组合有洞察力
实验充分度: ⭐⭐⭐⭐ 4 数据集+计算效率对比
写作质量: ⭐⭐⭐⭐⭐ 因果链条清晰
价值: ⭐⭐⭐⭐ 解决了半监督计数的根本性缺陷