跳转至

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

会议: CVPR2026 arXiv: 2506.09217 代码: datadrivenwheels/PCD_Python 领域: 自动驾驶 / 感知评估 关键词: 感知评估指标, 距离可靠性, 不确定性建模, 方差变化点检测, 自动驾驶安全

一句话总结

提出 Perception Characteristics Distance (PCD),一种量化感知系统在不同距离下可靠检测能力的新指标,通过统计建模检测置信度随距离的均值和方差变化,定义感知系统的最大可靠检测距离,弥补传统 AP/IoU 等静态指标无法反映距离依赖性和随机性的不足。

背景与动机

  1. 传统指标的局限:AP、IoU、F1 等经典感知评估指标基于静态逐帧评估,忽略了真实驾驶场景中时间和空间的连续性,无法反映感知系统在不同距离下的稳定性差异
  2. 远距离检测不稳定:YOLOX 等检测器在近距离(<30m)时置信度稳定 ≥0.90,但远距离(≥70m)时置信度剧烈波动(可低至 0.24),固定阈值判别存在严重误判风险
  3. 阈值化决策的脆弱性:ADAS/ADS 中的控制逻辑通常依赖置信度阈值做二值化判断(检测/未检测),这种方式无法捕捉感知输出的随机性和距离相关变异性
  4. 安全性需求:自动驾驶安全依赖于对最大可靠检测距离的准确估计,决策系统需要知道在多远的距离内可以信任感知结果
  5. 缺乏受控基准数据集:现有的驾驶数据集(nuScenes、KITTI、BDD100K)均在自然环境中采集,缺乏受控环境下用于系统性评估感知鲁棒性的数据
  6. 现有指标不区分条件差异:传统 AP 等指标在不同天气/光照条件下的变化不敏感,无法有效揭示感知系统在恶劣条件下的退化特征

方法详解

整体框架

PCD 的核心思路是:将感知输出(IoU × 置信度)建模为距离 \(x\) 的函数,通过统计估计其均值和方差,在给定检测质量阈值 \(y^{thres}\) 和概率阈值 \(p^{thres}\) 下,找到满足可靠性要求的最大距离。

为什么用 IoU × Confidence:单独的置信度只反映模型确信度,IoU 只反映定位精度;二者乘积同时捕捉检测质量和确定性,更适合评估感知稳定性。

关键设计

方差变化点检测

  1. 使用惩罚样条回归(Penalized B-spline, \(K=10\), 三阶)拟合 IoU×Confidence 随距离的均值函数 \(f(x)\)
  2. 基于 Schwarz 信息准则(SIC)构造检验统计量,检测残差方差的显著变化点
  3. 采用序贯假设检验策略:先在全数据上检测第一个变化点 \(x_{\tau_1}\),然后在分段子集上递归检测后续变化点
  4. 变化点将距离范围划分为若干区间,每个区间内方差近似恒定

PCD 计算

  • 在每个区间内,IoU×Confidence 服从正态分布 \(y_i \sim \mathcal{N}(\mu_i, \sigma_i^2)\)
  • PCD 定义为满足 \(P_Y(y_i > y^{thres}) > p^{thres}\) 的最大距离 \(x_i\)
  • 综合指标 aPCD 对多组 \((p^{thres}, y^{thres})\) 组合取平均,类似 AUC 的方式概括整体感知能力

损失/优化

本文为评估指标论文,不涉及训练损失。PCD 的计算涉及:

  • 惩罚样条回归正则化:\(\sum_{i=1}^n [y_i - \sum_j \beta_j B_j(x_i)]^2 + \lambda \sum_{j=3}^K (\Delta^2 \beta_j)^2\),其中 \(\lambda=0.6\)
  • 变化点假设检验基于对数似然比和 SIC 准则

实验关键数据

SensorRainFall 数据集

  • Virginia Smart Road 设施采集,可控降雨强度 64 mm/h
  • 4 种环境条件:晴天白天、雨天白天、雨天夜晚、雨天路灯夜晚
  • 1,231 张 1920×1080 前视图像,距离 4m–250m
  • 两种目标:红色轿车 + 假人行人,提供 GT bounding box + 分割掩码 + 精确距离

基准结果(16组实验中的代表性结果)

实例分割 - 车辆 - 晴天白天

模型 aPCD (m) AP50:95 AP50 AR F1_50
Mask2Former 107.1 0.423 0.633 0.427 0.778
Mask R-CNN 89.8 0.376 0.579 0.381 0.736
ConvNeXt-V2 89.5 0.395 0.553 0.399 0.715
RTMDet 43.5 0.349 0.593 0.353 0.747
SOLOv2 36.6 0.233 0.276 0.237 0.438

目标检测 - 车辆 - 雨天夜晚(aPCD 与传统指标排序不一致的典型案例):

模型 aPCD (m) AP50:95 AP50 AR F1_50
GLIP 37.3 0.133 0.288 0.136 0.451
Grounding DINO 29.6 0.125 0.297 0.128 0.461
YOLOX 23.8 0.106 0.212 0.109 0.353
DyHead 21.5 0.144 0.362 0.146 0.534
Deformable DETR 3.8 0.056 0.133 0.058 0.239

消融分析

  • 样本量影响:当变化点数量 <4 时,检测准确度和稳定性良好;样本量越大,方差变化点检测越精确
  • 效应量影响:在 50-50 样本分割下,方差变化约 3× 即可被显著检测
  • 阈值敏感性:晴天/雨天白天条件下 PCD 随阈值变化平滑;雨天夜晚条件下 PCD 出现剧烈波动,表明系统对阈值更敏感

亮点

  1. 填补指标空白:首次提出距离感知的概率性感知评估指标,将检测可靠性与物理距离直接关联
  2. 揭示传统指标的盲区:在雨天夜晚场景,GLIP 的 aPCD 最高但 AP 不是最高,说明 AP 排序无法反映距离维度的稳定性(DyHead 在远距离波动更大)
  3. 安全包络定义:PCD 可直接用于定义 ADS 的安全运行包络(safety envelope),指导不同环境条件下的决策距离
  4. 受控数据集:SensorRainFall 是唯一在高度受控环境下采集的公开感知评估数据集,排除了混淆变量
  5. 统计方法扎实:采用惩罚样条 + 序贯方差变化点检测,有理论支撑的异方差建模

局限性 / 可改进方向

  1. 数据集规模有限:SensorRainFall 仅 1,231 张图像、2 个目标类别,场景多样性不足
  2. 仅在自有数据集验证:未在 nuScenes、KITTI 等主流数据集上验证 PCD 的泛化性
  3. 任务范围窄:仅覆盖目标检测和实例分割,未扩展到 3D 检测、深度估计、语义分割等任务
  4. 正态分布假设:IoU×Confidence 在各区间内服从正态分布的假设可能在极端条件下不成立
  5. 静态目标评估:目标物体是静止的,缺乏对运动目标(变化速度、姿态)的评估
  6. 单传感器:实验仅基于相机图像,未涉及 LiDAR、Radar 的 PCD 评估或多传感器融合

与相关工作的对比

方法 特点 局限
AP / mAP 基于 IoU 阈值的精确率-召回率汇总 忽略距离维度和检测稳定性
PDQ (Hall et al.) 联合空间和语义不确定性 不考虑距离依赖性
LRP (Oksuz et al.) 同时考虑定位、FP、FN 仍为静态帧级指标
AD (Mao et al.) 引入时间延迟评估 未建模距离-可靠性关系
GIoU (Rezatofighi et al.) 解决不重叠框的 IoU 问题 与距离和稳定性无关
PCD (本文) 距离依赖 + 不确定性感知 + 双阈值可调 数据集和任务范围有限

评分

  • 新颖性: ⭐⭐⭐⭐ — 从全新的距离-不确定性角度定义感知评估指标,视角独特
  • 实验充分度: ⭐⭐⭐ — 多模型多条件系统评估,但仅限自有数据集,缺乏在主流 benchmark 上的验证
  • 写作质量: ⭐⭐⭐⭐ — 数学表述清晰,示例直观,图表设计良好
  • 价值: ⭐⭐⭐⭐ — 对 ADS 安全评估有实际意义,可补充现有评估体系,但需更广泛的实证验证