De-confounded Gaze Estimation¶

会议: ECCV 2024
arXiv: 无
代码: 无
领域: 人体理解
关键词: 视线估计、因果推断、跨域泛化、特征分离、混杂因子

一句话总结¶

本文提出基于因果干预的视线估计框架 FSCI，通过特征分离将视线相关特征与身份/光照等无关特征解耦，并利用动态混杂因子库对无关特征进行因果干预，在跨域设置下较基线提升36.2%、较SOTA提升11.5%。

研究背景与动机¶

领域现状：深度学习视线估计方法在域内性能已相当成熟，但在跨域场景（不同数据采集环境、不同人群）中性能显著下降。目前主流方法主要通过域自适应或特征对齐来缓解这一问题。

现有痛点：视线估计模型在训练过程中会不可避免地学习到与视线无关的信息，如面部身份特征、光照条件等。这些"混杂因子"会在域迁移时导致严重的性能退化，因为模型可能错误地依赖这些域特定的特征来预测视线方向。

核心矛盾：视线特征与身份/光照等无关特征在特征空间中高度纠缠，传统方法难以有效分离这两类特征。即使进行域自适应，模型仍可能通过"捷径"利用混杂因子进行预测。

本文目标 如何在不接触目标域数据的情况下，训练出对混杂因子（身份、光照等）具有鲁棒性的视线估计模型？具体分解为：(1) 如何有效分离视线特征与无关特征？(2) 如何通过因果干预消除无关特征对视线预测的影响？

切入角度：作者从因果推断的角度出发，将混杂因子视为因果图中的混杂变量。通过因果干预（do-calculus），可以切断混杂因子对预测结果的后门路径，使模型仅通过视线特征进行预测。

核心 idea：通过特征分离+动态混杂因子库实现因果干预，消除身份、光照等混杂因子对视线估计的影响，实现跨域泛化。

方法详解¶

整体框架¶

FSCI（Feature-Separation-based Causal Intervention）框架的整体流程如下：输入面部/眼部图像，首先通过共享的骨干网络提取特征，然后通过特征分离模块将特征分解为视线相关特征和视线无关特征。在训练阶段，利用动态混杂因子库（Dynamic Confounder Bank）对视线无关特征进行因果干预——通过对库中存储的多种无关特征进行平均，使模型在训练时"看到"各种可能的混杂因子组合，从而削弱其对任何特定混杂因子的依赖。最终，模型仅利用纯净的视线特征进行角度预测。

关键设计¶

特征分离模块（Feature Separation Module）:
- 功能：将输入图像的特征表示分解为视线相关特征 \(f_g\) 和视线无关特征 \(f_c\)
- 核心思路：使用两个分支网络分别从共享骨干提取的特征中学习视线特征和无关特征。通过对抗训练确保两类特征相互独立——视线分支的特征不应包含身份信息，无关分支的特征不应包含视线信息。具体来说，视线特征通过视线角度预测的监督进行学习，无关特征通过身份分类等辅助任务进行学习，同时引入正交约束确保两类特征尽可能独立。
- 设计动机：只有将视线特征和无关特征有效分离，才能对无关特征进行精准的因果干预。如果两类特征纠缠在一起，干预无关特征时也会影响视线特征。
动态混杂因子库（Dynamic Confounder Bank）:
- 功能：存储和动态更新来自不同样本的视线无关特征，作为因果干预的基础
- 核心思路：维护一个队列式的特征库，在训练过程中不断用当前批次提取的无关特征更新库中的内容。在进行因果干预时，对库中的所有无关特征取平均，得到一个"去混杂化"的无关特征表示 \(\bar{f}_c = \frac{1}{N}\sum_{i=1}^{N} f_c^i\)，然后将其与视线特征结合进行预测。这样模型在训练时每个样本都"看到了"所有可能的混杂因子的平均效果，从而消除对任何特定混杂因子的依赖。
- 设计动机：直接实现 \(P(Y|do(X))\) 的因果干预在实际中不可行，因为需要遍历所有可能的混杂因子。动态库提供了一种有效的近似方案——通过维持一个足够大且不断更新的混杂因子采样池来逼近后门调整公式。
因果干预训练策略（Causal Intervention Training）:
- 功能：在训练过程中实施因果干预，使最终模型的预测不受混杂因子影响
- 核心思路：在训练的前向传播过程中，将当前样本的视线特征与混杂因子库的平均特征进行融合后再进行视线角度预测。损失函数包含视线角度预测损失、特征分离正交损失以及辅助的身份分类损失。在推理阶段，也使用库的平均特征来替代当前样本的无关特征，确保预测不受个体特定混杂因子的影响。
- 设计动机：传统方法只是试图让模型忽略混杂因子，但模型可能仍然通过隐含的路径利用这些信息。因果干预通过数学上切断后门路径，提供了更强的保证。

损失函数 / 训练策略¶

总损失函数包含三部分：(1) 视线角度回归损失 \(\mathcal{L}_{gaze}\)，使用 L1 损失监督预测角度与真实角度的差异；(2) 正交损失 \(\mathcal{L}_{orth}\)，约束视线特征与无关特征之间的正交性；(3) 身份分类损失 \(\mathcal{L}_{id}\)，用于确保无关特征确实捕获了身份信息。训练分为预热阶段（仅训练特征分离）和因果干预阶段（加入动态混杂因子库进行端到端训练）。

实验关键数据¶

主实验¶

数据集	指标	本文 FSCI	之前SOTA	提升
ETH-XGaze → MPIIGaze	Angular Error (°)	6.2	~7.0	~11.5%
ETH-XGaze → EyeDiap	Angular Error (°)	7.1	~8.0	~11.3%
跨域平均	Angular Error (°)	-	Baseline	最高36.2%

消融实验¶

配置	关键指标	说明
无特征分离	基线性能	混杂因子严重影响跨域性能
特征分离但无因果干预	中等提升	分离有帮助但不够充分
完整FSCI	最佳性能	特征分离+因果干预协同作用
静态混杂因子库 vs 动态库	动态更优	动态更新能覆盖更多混杂因子变化

关键发现¶

特征分离和因果干预缺一不可：仅做特征分离而不做因果干预，效果有限；因果干预必须建立在有效的特征分离基础上
动态混杂因子库的大小对性能有影响，过小的库不足以覆盖混杂因子的分布空间
FSCI 在多种跨域设置下均表现稳健，不需要接触任何目标域数据
身份和光照是最主要的两类混杂因子，消除它们的影响可以显著提升跨域性能

亮点与洞察¶

将因果推断引入视线估计领域是一个新颖的视角，为解决跨域泛化问题提供了理论基础
动态混杂因子库的设计巧妙地将因果干预的理论要求转化为可实现的工程方案
不需要目标域数据的纯源域训练方式使方法在实际部署中更加实用
该框架具有通用性，特征分离+因果干预的思路可以扩展到其他受混杂因子影响的视觉任务

局限与展望¶

特征分离的质量高度依赖辅助任务的设计，如何保证分离的完全性仍是开放问题
动态库的大小和更新策略需要手动调节，缺乏自适应机制
论文仅考虑了身份和光照作为混杂因子，实际场景中可能存在更多类型的混杂因子
因果干预假设混杂因子之间是独立的，但实际上不同混杂因子之间可能存在相互作用
可以尝试结合对比学习来增强特征分离的效果

评分¶

新颖性: ⭐⭐⭐⭐ 因果推断在视线估计中的应用较为新颖，理论动机清晰
实验充分度: ⭐⭐⭐ 跨域实验设置合理但数据集和对比方法可以更丰富
写作质量: ⭐⭐⭐ 因果推断的描述清晰，但部分实验细节不够充分
价值: ⭐⭐⭐⭐ 为跨域视线估计提供了有理论保证的新框架