跳转至

Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking

会议: CVPR 2026
arXiv: 2501.14894
代码: 无
领域: 人体理解 / 视线追踪
关键词: gaze tracking, uncertainty estimation, post-hoc calibration, Coverage Probability Error, domain shift

一句话总结

提出基于等保序回归的后校准(post-hoc calibration)方法,仅用50个标定样本即可修正视线追踪模型在域偏移下的不确定性估计失准,并引入CPE(Coverage Probability Error)指标替代EUC正确评估不确定性质量——校准后CPE从8%-45%降至~5%,95%置信区间覆盖率从16%-67%提升至86%-89%。

背景与动机

基于外观的视线追踪中,不确定性估计对安全关键应用(如驾驶员监控)至关重要。现有不确定性感知模型(异方差回归/分位数回归)在训练域内有效,但域偏移(跨被试/跨数据集)导致不确定性数值不准确——模型输出的概率分布与真实分布不匹配。常用EUC(error-uncertainty correlation)指标本身存在缺陷:不确定性源于认知和偶然因素而非预测误差,误差与不确定性之间的相关是伪相关。

核心问题

域偏移导致不确定性估计失准(如标称95%置信区间实际仅覆盖50%样本),如何高效修正?如何正确评估不确定性质量?

方法详解

整体框架

不修改原模型参数,在输出层做后校准:学一个单调映射R:[0,1]→[0,1],将标称概率映射到校正后概率,使校正后的CDF更接近真实分布。用等保序回归(isotonic regression)实现R,无参数、计算量极低。仅需少量标定样本(~50张同域图像)训练R。

关键设计

  1. CPE评估指标(Coverage Probability Error): 灵感来自Brier Score。对标称概率p∈[0,1],计算实际有多少比例的GT落在p分位数以下(经验覆盖率P̂(p)),与p的偏差即为误差。CPE是整个[0,1]范围上偏差的RMSE。CPE=0表示完美校准。vs EUC:EUC衡量误差与不确定性的相关——但这本就是伪相关(不确定性≠误差),即使完美不确定性模型EUC也不会等于1。

  2. 等保序回归校准: 收集标定样本,对每个样本计算标称CDF概率p_i,排序后用经验覆盖率构建训练对{(p_i, P̂(p_i))},拟合等保序回归模型R。推理时用R(p)替代p做分位数计算。等保序回归自然保证CDF的单调性约束。

  3. 应用于视线追踪: 对yaw和pitch两个分量分别校准。benchmark使用异方差高斯回归模型(输出均值+方差)作为基础不确定性模型,在MPIIGaze和RTGene上评估4种域偏移场景。

损失函数 / 训练策略

基础模型用NLL loss训练(高斯假设)。校准模型用等保序回归的闭式解,无需梯度优化。3-fold cross validation,每fold报告校准前后对比。

实验关键数据

场景 CPE未校准 CPE已校准 95%CI覆盖(未校) 95%CI覆盖(已校)
MPII跨被试 ResNet18 23.17% 5.18% 41.1% 88.0%
RTGene跨被试 ResNet18 19.60% 5.26% 51.4% 86.5%
MPII→RTGene跨数据集 20.60% 4.75% 47.8% 86.7%
RTGene→MPII跨数据集 27.21% 4.84% 67.3% 88.7%
MPII→RTGene ResNet50 20.10% 4.63% 48.5% 89.0%

附带角度误差改善:多数场景降低7%-32%。

消融实验要点

  • 标定样本数: 10→20→50→100,50个即达plateau,性能已接近理想,非常数据高效
  • CPE vs EUC: EUC对校准改善无法正确反映(值始终接近0),CPE准确反映了从40%降至~5%的改善
  • 分位数回归baseline: 95%CI估计独立评估,覆盖率也很低(16%-53%),同样需要校准

亮点 / 我学到了什么

  • CPE指标的设计思路值得推广: 直接评估"标称概率p下,实际有多少比例GT被覆盖",简洁直观,适用于任何概率回归模型。比correlation-based指标更合理
  • 等保序回归做概率校准: 零参数、保单调性、闭式解——在回归任务中做后校准的最简方案。50个样本就够,适合实际部署
  • EUC的伪相关揭示: 论文清楚论证了为什么error-uncertainty correlation在理论上就是错的——源自对不确定性来源的错误假设
  • 跨域不确定性校准非常实用: 模型训好不改参数,部署到新环境只需收集~50张标注图就能修正

局限性 / 可改进方向

  • 95%CI覆盖率校准后约86-89%仍未完美达95%,可能需要更多标定样本或更复杂的校准模型
  • 仅在2个数据集(MPIIGaze/RTGene)上验证,未测试极端域偏移(如从受控实验环境到完全野外)
  • 仅支持输出概率分布的模型(异方差回归等),不支持contrastive-based不确定性方法
  • 高斯假设可能不准确,虽然校准能部分弥补

与相关工作的对比

  • vs 传统不确定性感知视线追踪[13,14,25]: 这些方法仅用不确定性做相对排序(outlier检测),不关注数值准确性。本文首次系统解决数值准确性
  • vs MC Dropout/Ensemble: 计算成本高,在视线追踪实时场景不实用。后校准几乎零开销
  • vs 元学习/迁移学习: 需要大量目标域数据重新训练。后校准仅需50张

与我的研究方向的关联

  • CPE评估指标可迁移到任何需要评估预测不确定性的任务(如VLM的置信度校准)
  • 后校准(post-hoc calibration)范式在大模型部署中有广泛应用价值——不改模型参数,仅修正输出分布
  • 与calibration in LLM/VLM的研究方向有方法论联系

评分

  • 新颖性: ⭐⭐⭐ 等保序回归校准和CPE指标设计合理但技术难度不高,核心贡献在问题框架而非方法创新
  • 实验充分度: ⭐⭐⭐⭐ 4种域偏移、2种骨干、标定样本数分析、CPE vs EUC对比全面
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰(EUC的缺陷论证有说服力),公式推导完整,图表直观
  • 对我的价值: ⭐⭐⭐ CPE指标和后校准思路可迁移,但视线追踪本身非核心领域