Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking¶

会议: CVPR 2026
arXiv: 2501.14894
代码: 无
领域: 人体理解 / 视线追踪
关键词: gaze tracking, uncertainty estimation, post-hoc calibration, Coverage Probability Error, domain shift

一句话总结¶

提出基于等保序回归的后校准(post-hoc calibration)方法，仅用50个标定样本即可修正视线追踪模型在域偏移下的不确定性估计失准，并引入CPE(Coverage Probability Error)指标替代EUC正确评估不确定性质量——校准后CPE从8%-45%降至~5%，95%置信区间覆盖率从16%-67%提升至86%-89%。

背景与动机¶

基于外观的视线追踪中，不确定性估计对安全关键应用(如驾驶员监控)至关重要。现有不确定性感知模型(异方差回归/分位数回归)在训练域内有效，但域偏移(跨被试/跨数据集)导致不确定性数值不准确——模型输出的概率分布与真实分布不匹配。常用EUC(error-uncertainty correlation)指标本身存在缺陷：不确定性源于认知和偶然因素而非预测误差，误差与不确定性之间的相关是伪相关。

核心问题¶

域偏移导致不确定性估计失准（如标称95%置信区间实际仅覆盖50%样本），如何高效修正？如何正确评估不确定性质量？

方法详解¶

整体框架¶

不修改原模型参数，在输出层做后校准：学一个单调映射R:[0,1]→[0,1]，将标称概率映射到校正后概率，使校正后的CDF更接近真实分布。用等保序回归(isotonic regression)实现R，无参数、计算量极低。仅需少量标定样本(~50张同域图像)训练R。

关键设计¶

CPE评估指标(Coverage Probability Error): 灵感来自Brier Score。对标称概率p∈[0,1]，计算实际有多少比例的GT落在p分位数以下(经验覆盖率P̂(p))，与p的偏差即为误差。CPE是整个[0,1]范围上偏差的RMSE。CPE=0表示完美校准。vs EUC：EUC衡量误差与不确定性的相关——但这本就是伪相关(不确定性≠误差)，即使完美不确定性模型EUC也不会等于1。
等保序回归校准: 收集标定样本，对每个样本计算标称CDF概率p_i，排序后用经验覆盖率构建训练对{(p_i, P̂(p_i))}，拟合等保序回归模型R。推理时用R(p)替代p做分位数计算。等保序回归自然保证CDF的单调性约束。
应用于视线追踪: 对yaw和pitch两个分量分别校准。benchmark使用异方差高斯回归模型(输出均值+方差)作为基础不确定性模型，在MPIIGaze和RTGene上评估4种域偏移场景。

损失函数 / 训练策略¶

基础模型用NLL loss训练(高斯假设)。校准模型用等保序回归的闭式解，无需梯度优化。3-fold cross validation，每fold报告校准前后对比。

实验关键数据¶

场景	CPE未校准	CPE已校准	95%CI覆盖(未校)	95%CI覆盖(已校)
MPII跨被试 ResNet18	23.17%	5.18%	41.1%	88.0%
RTGene跨被试 ResNet18	19.60%	5.26%	51.4%	86.5%
MPII→RTGene跨数据集	20.60%	4.75%	47.8%	86.7%
RTGene→MPII跨数据集	27.21%	4.84%	67.3%	88.7%
MPII→RTGene ResNet50	20.10%	4.63%	48.5%	89.0%

附带角度误差改善：多数场景降低7%-32%。

消融实验要点¶

标定样本数: 10→20→50→100，50个即达plateau，性能已接近理想，非常数据高效
CPE vs EUC: EUC对校准改善无法正确反映(值始终接近0)，CPE准确反映了从40%降至~5%的改善
分位数回归baseline: 95%CI估计独立评估，覆盖率也很低(16%-53%)，同样需要校准

亮点 / 我学到了什么¶

CPE指标的设计思路值得推广: 直接评估"标称概率p下，实际有多少比例GT被覆盖"，简洁直观，适用于任何概率回归模型。比correlation-based指标更合理
等保序回归做概率校准: 零参数、保单调性、闭式解——在回归任务中做后校准的最简方案。50个样本就够，适合实际部署
EUC的伪相关揭示: 论文清楚论证了为什么error-uncertainty correlation在理论上就是错的——源自对不确定性来源的错误假设
跨域不确定性校准非常实用: 模型训好不改参数，部署到新环境只需收集~50张标注图就能修正

局限性 / 可改进方向¶

95%CI覆盖率校准后约86-89%仍未完美达95%，可能需要更多标定样本或更复杂的校准模型
仅在2个数据集(MPIIGaze/RTGene)上验证，未测试极端域偏移(如从受控实验环境到完全野外)
仅支持输出概率分布的模型(异方差回归等)，不支持contrastive-based不确定性方法
高斯假设可能不准确，虽然校准能部分弥补

与相关工作的对比¶

vs 传统不确定性感知视线追踪[13,14,25]: 这些方法仅用不确定性做相对排序(outlier检测)，不关注数值准确性。本文首次系统解决数值准确性
vs MC Dropout/Ensemble: 计算成本高，在视线追踪实时场景不实用。后校准几乎零开销
vs 元学习/迁移学习: 需要大量目标域数据重新训练。后校准仅需50张

与我的研究方向的关联¶

CPE评估指标可迁移到任何需要评估预测不确定性的任务(如VLM的置信度校准)
后校准(post-hoc calibration)范式在大模型部署中有广泛应用价值——不改模型参数，仅修正输出分布
与calibration in LLM/VLM的研究方向有方法论联系

评分¶

新颖性: ⭐⭐⭐ 等保序回归校准和CPE指标设计合理但技术难度不高，核心贡献在问题框架而非方法创新
实验充分度: ⭐⭐⭐⭐ 4种域偏移、2种骨干、标定样本数分析、CPE vs EUC对比全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰(EUC的缺陷论证有说服力)，公式推导完整，图表直观
对我的价值: ⭐⭐⭐ CPE指标和后校准思路可迁移，但视线追踪本身非核心领域