Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking¶
会议: CVPR 2026
arXiv: 2501.14894
代码: 无
领域: 人体理解 / 视线追踪
关键词: gaze tracking, uncertainty estimation, post-hoc calibration, Coverage Probability Error, domain shift
一句话总结¶
提出基于等保序回归的后校准(post-hoc calibration)方法,仅用50个标定样本即可修正视线追踪模型在域偏移下的不确定性估计失准,并引入CPE(Coverage Probability Error)指标替代EUC正确评估不确定性质量——校准后CPE从8%-45%降至~5%,95%置信区间覆盖率从16%-67%提升至86%-89%。
背景与动机¶
基于外观的视线追踪中,不确定性估计对安全关键应用(如驾驶员监控)至关重要。现有不确定性感知模型(异方差回归/分位数回归)在训练域内有效,但域偏移(跨被试/跨数据集)导致不确定性数值不准确——模型输出的概率分布与真实分布不匹配。常用EUC(error-uncertainty correlation)指标本身存在缺陷:不确定性源于认知和偶然因素而非预测误差,误差与不确定性之间的相关是伪相关。
核心问题¶
域偏移导致不确定性估计失准(如标称95%置信区间实际仅覆盖50%样本),如何高效修正?如何正确评估不确定性质量?
方法详解¶
整体框架¶
不修改原模型参数,在输出层做后校准:学一个单调映射R:[0,1]→[0,1],将标称概率映射到校正后概率,使校正后的CDF更接近真实分布。用等保序回归(isotonic regression)实现R,无参数、计算量极低。仅需少量标定样本(~50张同域图像)训练R。
关键设计¶
-
CPE评估指标(Coverage Probability Error): 灵感来自Brier Score。对标称概率p∈[0,1],计算实际有多少比例的GT落在p分位数以下(经验覆盖率P̂(p)),与p的偏差即为误差。CPE是整个[0,1]范围上偏差的RMSE。CPE=0表示完美校准。vs EUC:EUC衡量误差与不确定性的相关——但这本就是伪相关(不确定性≠误差),即使完美不确定性模型EUC也不会等于1。
-
等保序回归校准: 收集标定样本,对每个样本计算标称CDF概率p_i,排序后用经验覆盖率构建训练对{(p_i, P̂(p_i))},拟合等保序回归模型R。推理时用R(p)替代p做分位数计算。等保序回归自然保证CDF的单调性约束。
-
应用于视线追踪: 对yaw和pitch两个分量分别校准。benchmark使用异方差高斯回归模型(输出均值+方差)作为基础不确定性模型,在MPIIGaze和RTGene上评估4种域偏移场景。
损失函数 / 训练策略¶
基础模型用NLL loss训练(高斯假设)。校准模型用等保序回归的闭式解,无需梯度优化。3-fold cross validation,每fold报告校准前后对比。
实验关键数据¶
| 场景 | CPE未校准 | CPE已校准 | 95%CI覆盖(未校) | 95%CI覆盖(已校) |
|---|---|---|---|---|
| MPII跨被试 ResNet18 | 23.17% | 5.18% | 41.1% | 88.0% |
| RTGene跨被试 ResNet18 | 19.60% | 5.26% | 51.4% | 86.5% |
| MPII→RTGene跨数据集 | 20.60% | 4.75% | 47.8% | 86.7% |
| RTGene→MPII跨数据集 | 27.21% | 4.84% | 67.3% | 88.7% |
| MPII→RTGene ResNet50 | 20.10% | 4.63% | 48.5% | 89.0% |
附带角度误差改善:多数场景降低7%-32%。
消融实验要点¶
- 标定样本数: 10→20→50→100,50个即达plateau,性能已接近理想,非常数据高效
- CPE vs EUC: EUC对校准改善无法正确反映(值始终接近0),CPE准确反映了从40%降至~5%的改善
- 分位数回归baseline: 95%CI估计独立评估,覆盖率也很低(16%-53%),同样需要校准
亮点 / 我学到了什么¶
- CPE指标的设计思路值得推广: 直接评估"标称概率p下,实际有多少比例GT被覆盖",简洁直观,适用于任何概率回归模型。比correlation-based指标更合理
- 等保序回归做概率校准: 零参数、保单调性、闭式解——在回归任务中做后校准的最简方案。50个样本就够,适合实际部署
- EUC的伪相关揭示: 论文清楚论证了为什么error-uncertainty correlation在理论上就是错的——源自对不确定性来源的错误假设
- 跨域不确定性校准非常实用: 模型训好不改参数,部署到新环境只需收集~50张标注图就能修正
局限性 / 可改进方向¶
- 95%CI覆盖率校准后约86-89%仍未完美达95%,可能需要更多标定样本或更复杂的校准模型
- 仅在2个数据集(MPIIGaze/RTGene)上验证,未测试极端域偏移(如从受控实验环境到完全野外)
- 仅支持输出概率分布的模型(异方差回归等),不支持contrastive-based不确定性方法
- 高斯假设可能不准确,虽然校准能部分弥补
与相关工作的对比¶
- vs 传统不确定性感知视线追踪[13,14,25]: 这些方法仅用不确定性做相对排序(outlier检测),不关注数值准确性。本文首次系统解决数值准确性
- vs MC Dropout/Ensemble: 计算成本高,在视线追踪实时场景不实用。后校准几乎零开销
- vs 元学习/迁移学习: 需要大量目标域数据重新训练。后校准仅需50张
与我的研究方向的关联¶
- CPE评估指标可迁移到任何需要评估预测不确定性的任务(如VLM的置信度校准)
- 后校准(post-hoc calibration)范式在大模型部署中有广泛应用价值——不改模型参数,仅修正输出分布
- 与calibration in LLM/VLM的研究方向有方法论联系
评分¶
- 新颖性: ⭐⭐⭐ 等保序回归校准和CPE指标设计合理但技术难度不高,核心贡献在问题框架而非方法创新
- 实验充分度: ⭐⭐⭐⭐ 4种域偏移、2种骨干、标定样本数分析、CPE vs EUC对比全面
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰(EUC的缺陷论证有说服力),公式推导完整,图表直观
- 对我的价值: ⭐⭐⭐ CPE指标和后校准思路可迁移,但视线追踪本身非核心领域