跳转至

A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation

会议: NeurIPS 2025
arXiv: 2505.13043
代码: 无
领域: 人体理解 / 域自适应
关键词: 跨域视线估计, 广义标签偏移, 重要性重加权, 条件分布对齐, 核嵌入

一句话总结

本文将跨域视线估计(CDGE)问题建模为广义标签偏移(GLS)问题,指出现有域不变表示学习方法在标签偏移存在时理论上不充分,提出基于截断高斯分布的连续重要性重加权和概率感知条件算子差异(PCOD)来联合纠正标签偏移和条件偏移,在多个backbone上平均降低误差12%~27%。

背景与动机

基于外观的深度视线估计在人机交互、VR、医学分析等领域有广泛应用,但模型在跨域部署时性能严重下降。现有跨域视线估计(CDGE)方法分为两类:域泛化(DG)方法通过去除视线无关因素提取域不变特征,无监督域自适应(UDA)方法通过对齐特征分布实现泛化。这两类方法本质上都聚焦于域不变表示学习。

然而,GLS理论已证明:当标签偏移存在时,仅做不变表示学习不足以最小化域偏移。在CDGE中,不同数据集的视线范围和集中区域不同(标签分布不同),且不同采集环境下同一视线方向的图像外观差异显著(条件分布不同),这恰好构成了GLS问题。现有方法完全忽略了标签偏移纠正,理论上存在根本性的不足。

核心问题

如何在视线估计这种连续回归任务中进行GLS纠正?现有GLS纠正方法均面向分类问题(有限离散类别),依赖类别级别的分布比例估计和类别级条件对齐,这些方法在标签变量连续且无限的回归问题上完全不可行。本文需要解决两个关键挑战:(1) 如何对连续标签分布进行重要性重加权;(2) 如何将重加权后的源分布嵌入到条件不变学习中。

方法详解

整体框架

GLSGE框架分三步:(1) 估计重要性权重函数ω(y),用重加权后的源标签分布去逼近目标标签分布;(2) 基于重加权后的源分布学习条件不变特征变换g;(3) 在重加权的源域上训练视线预测器h。输入是有标签的源域数据和无标签的目标域数据,加上源域预训练模型,输出是泛化到目标域的(g, h)。

关键设计

  1. 截断高斯标签分布建模与连续重要性重加权: 视线变量有特殊性质——具有有限范围(紧支撑),且人的注视呈集中分布。因此作者将标签分布建模为二元截断高斯分布。用目标域伪标签ŷ_t = h(g(x_t))来估计目标分布的均值和协方差,然后计算重要性权重ω(y) = f_TGau(y; μ̂_t, σ̂_t, a, b) / p_Y^s(y)。重加权后的源标签概率直接等于估计的目标截断高斯分布。这种基于参数化分布的方法巧妙绕过了分类方法中"遍历所有类别"的不可行性。

  2. 概率感知条件算子差异(PCOD): 现有条件分布对齐方法COD通过核嵌入整体对齐P(Z|Y),但其经验估计假设均匀标签分布,无法嵌入重加权后的标签分布。作者重新推导了COD的经验估计,将原来等权的1/n求和替换为ω(y_i)·p̂(y_i)加权求和。这涉及RKHS中条件均值算子和条件协方差算子的概率感知估计,需要大量矩阵分析(如Woodbury公式)。最终得到的PCOD自然地整合了标签偏移纠正信息。

  3. 边际对齐辅助: 训练初期域偏移大,预测器产生的伪标签质量低,可能导致陷入次优解。因此额外加入边际分布对齐项(采用DAGE-GRAM),提高伪标签可靠性。最终条件对齐损失 = PCOD + 边际对齐。

损失函数 / 训练策略

总目标:min_{g,h} L_src^ω + λ·L_cond,其中L_src^ω是重加权L1损失(每个源样本按其重加权概率缩放),L_cond = PCOD + 边际对齐。训练采用交替优化:外循环N1步更新标签分布估计(更新伪标签→重估截断高斯参数→更新权重),内循环N2=5个epoch更新(g,h)。深层backbone冻结,仅训练浅层MLP特征提取器和线性预测器。

实验关键数据

四个标准CDGE任务:ETH-XGaze(E)→MPIIFaceGaze(M),E→EyeDiap(D),Gaze360(G)→M,G→D。

Backbone 方法 E→M E→D G→M G→D Avg
ResNet-18 Baseline 8.05 9.03 7.41 8.83 8.33
ResNet-18 PnP-GA+ (SOTA UDA) 5.34 5.73 6.10 7.62 6.20
ResNet-18 GLSGE 5.31 6.21 5.43 7.30 6.06
ResNet-50 Baseline 8.03 8.06 7.75 8.79 8.16
ResNet-50 PnP-GA+ 6.49 6.61 5.64 7.09 6.46
ResNet-50 GLSGE 5.54 6.10 5.27 7.14 6.01

跨模型适用性(作为即插即用插件): | 模型 | 原始Avg | +GLSGE Avg | 降幅 | |------|---------|------------|------| | ResNet-18 | 8.33 | 6.06 | 27.2% | | ResNet-50 | 8.16 | 6.01 | 26.3% | | GazeTR (ViT) | 8.99 | 7.27 | 19.1% | | FSCI (SOTA DG) | 6.95 | 6.11 | 12.1% |

消融实验要点

  • 标签偏移纠正和条件分布对齐各自都能显著降低误差,二者结合(GLS纠正)效果最佳
  • PCOD优于原始COD,说明概率感知估计确实有效
  • 未使用标签偏移纠正时,COD和PCOD都受负面影响,验证了GLS理论的必要性主张
  • 超参数鲁棒性好,在较宽范围内预测误差标准差仅0.05度

亮点

  • 理论视角新颖: 首次将CDGE建模为GLS问题,从理论层面指出现有方法(DG和UDA)的不足——它们本质上只做不变表示学习,忽略了标签偏移
  • 连续回归的GLS纠正: 巧妙利用视线变量的特性(紧支撑、集中分布),用截断高斯参数化连续标签分布,绕过了分类GLS方法的不可行性
  • 即插即用: 作为通用框架,可以嵌入不同backbone(CNN、ViT)和已有SOTA方法(FSCI),在所有模型上都带来显著提升
  • PCOD的推导: 将重要性权重信息融入核方法的条件分布差异度量中,技术上非平凡

局限性 / 可改进方向

  • 需要目标域样本: 作为UDA方法,需要无标签目标域数据,不能泛化到完全未见的域(不如DG方法灵活)
  • 核矩阵计算开销大: PCOD涉及O(n²)的核矩阵计算,样本量大时计算量显著。可用随机特征近似降低复杂度
  • 标签分布假设: 截断高斯是通用但简单的假设,特定场景(如驾驶场景视线集中在几个方向)可能需要高斯混合模型等更精确的建模
  • 伪标签依赖: 标签偏移纠正和PCOD都依赖目标域伪标签质量,初期伪标签差时可能影响收敛
  • 可扩展到其他回归任务: 作者指出该框架可推广到姿态估计等类似任务,但未提供这些任务的实验验证

与相关工作的对比

  • vs PnP-GA+ (UDA SOTA): PnP-GA+用边际/条件对齐但忽略标签偏移,GLSGE在平均误差上稍优(6.06 vs 6.20),但PnP-GA+依赖大量数据增强和多达10个辅助模型,GLSGE不用任何数据增强
  • vs FSCI (DG SOTA): FSCI通过去混淆实现泛化,但不用目标域数据。GLSGE用少量无标签目标域数据就能进一步在FSCI基础上降低12.1%误差,说明标签偏移纠正确实是DG方法的盲区
  • vs COD (条件对齐方法): COD是ECCV2024提出的条件算子差异方法,但不能处理标签偏移。GLSGE的PCOD是COD的概率感知扩展,消融实验直接对比了PCOD vs COD的优势

启发与关联

  • GLS理论指出"不变表示学习在标签偏移存在时不充分",这个结论具有广泛意义——任何跨域回归任务(如深度估计、姿态估计、3D重建)如果源域和目标域的标签范围/分布不同,现有域自适应方法都可能不够
  • 用参数化连续分布做标签偏移纠正的思路值得借鉴,可以推广到其他有先验知识约束标签空间的任务
  • PCOD的推导方法(将重要性权重嵌入核方法的条件分布度量)具有一定的通用性

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将GLS理论引入CDGE,视角确实新,但GLS理论本身已存在
  • 实验充分度: ⭐⭐⭐⭐ 四个任务、四种backbone、完整消融和可视化;但缺少其他回归任务的验证
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,框架统一;PCOD推导篇幅较大但必要
  • 价值: ⭐⭐⭐⭐ 即插即用地提升多种模型,理论+实践贡献都有;但视线估计本身应用范围较窄