3DGazeNet: Generalizing 3D Gaze Estimation with Weak-Supervision from Synthetic Views¶
会议: ECCV 2024
arXiv: 2212.02997
代码: https://github.com/Vagver/3DGazeNet (有)
领域: 3D视觉 / 视线估计
关键词: 视线估计, 3D眼球网格回归, 弱监督, 多视图一致性, 合成视图
一句话总结¶
提出将视线估计重新表述为密集3D眼球网格回归,并通过从大规模野外人脸图像中自动提取伪标签+HeadGAN合成多视图进行弱监督训练,在跨域场景下比SOTA提升最多30%。
背景与动机¶
视线估计在人机交互、VR/AR、心理学分析等领域有广泛应用,但核心痛点在于跨域泛化困难。现有的视线数据集多在受控环境中采集,覆盖的人脸多样性、头部姿态和环境非常有限,导致模型在未见域上严重退化。主流方法依赖域适应(domain adaptation),需要目标域的样本甚至标注,无法作为即插即用的方案直接部署到新场景。同时,传统方法将视线估计建模为稀疏参数(角度/向量)回归,容易受到单点预测误差的影响。
核心问题¶
如何训练一个无需域适应、直接可部署到任意场景的通用视线估计模型?两个关键子问题:(1) 如何利用海量无标注的野外人脸数据来增强训练多样性;(2) 如何设计鲁棒的表示和训练框架来应对伪标签中的噪声。
方法详解¶
整体框架¶
输入一张人脸图像,裁剪左/右眼和全脸区域并resize到128×128,沿通道维度拼接后送入ResNet-18提取特征,再由两个全连接层分别回归:(a) 2×481个3D眼球网格顶点坐标,(b) 一个3D视线向量。最终视线方向取两个模态的均值。训练数据由三部分组成:有GT标注的视线数据集、带伪标注的大规模野外人脸数据集(ITWG, 255K张)、以及用HeadGAN生成的多视图对(ITWG-MV)。
关键设计¶
-
统一3D眼球表示: 定义了一个刚性球形3D眼球模板(481个顶点、928个三角面片),通过虹膜定位和3D人脸对齐自动拟合到任意人脸图像上。对有GT的数据集通过视线标签旋转模板并对齐到虹膜;对野外数据则借助RetinaFace进行3D人脸重建+2D虹膜检测,将2D虹膜位置提升到3D来确定眼球朝向,以此生成伪GT。这一设计使得任何稀疏表示(如虹膜边界等)都可以通过索引密集mesh来获取。
-
联合Mesh+Vector双头回归: 不同于直接回归角度或稀疏特征点,模型同时预测密集3D眼球网格和3D视线向量。消融实验表明M+V目标比单独用V或M效果更好——密集mesh提供对稀疏预测误差的鲁棒性,而向量提供精确的标签监督。
-
多视图一致性监督: 利用HeadGAN对每张野外人脸合成不同头部姿态的视图(保持相对视线方向不变),形成图像对。通过3D人脸重建计算两视图间的变换矩阵P,强制模型对同一人不同视角的预测在变换后保持一致。这一弱监督信号可有效平衡伪标签的噪声,无需任何真实视线标注即可训练。
损失函数 / 训练策略¶
- 顶点损失 \(\mathcal{L}_{vert}\): 预测与GT (伪)3D眼球坐标的L1距离
- 边长损失 \(\mathcal{L}_{edge}\): 基于固定三角化的边长L2距离,保持mesh拓扑
- 视线损失 \(\mathcal{L}_{gaze}\): 预测与GT视线向量的角度误差
- 多视图顶点一致性损失 \(\mathcal{L}_{MV,vertex}\): 变换后两视图预测的顶点L1距离
- 多视图视线一致性损失 \(\mathcal{L}_{MV,gaze}\): 旋转后两视图视线向量角度误差
- 总损失: \(\mathcal{L} = \lambda_{GT}\mathcal{L}_{GT} + \lambda_{PGT}\mathcal{L}_{PGT} + \lambda_{MV}\mathcal{L}_{MV}\),三项权重均为1
- 超参: \(\lambda_v=0.1, \lambda_e=0.01, \lambda_g=1\)
- 训练: Adam, batch=128, lr warmup 1e-6→1e-4 (3 epochs), 在60/80 epoch衰减10倍, 共100 epochs, 单卡V100
实验关键数据¶
| 数据集/设置 | 指标(°) | 3DGazeNet | 之前SOTA | 提升 |
|---|---|---|---|---|
| 跨域(仅伪标签): ITWG-MV→G360 | gaze err | 18.1 | 22.5 ([41]) | ~20% |
| 跨域(仅伪标签): AVA→G360 | gaze err | 22.4 | 29.0 ([41]) | ~23% |
| 跨域(+GT): GC+ITWG-MV→G360 | gaze err | 17.6 | - | - |
| 跨域(+GT): EXG+ITWG-MV→G360 | gaze err | 15.4 | - | - |
| 域内: MPII (M+V) | gaze err | 4.0 | 4.04 (GazeTR) | 持平 |
| 域内: G360 (M+V) | gaze err | 9.6 | 10.1 ([41]) | ~5% |
| 域内: GC (M+V) | gaze err | 3.1 | 3.3 (ETH-XGaze) | ~6% |
| 域内: EXG (M+V) | gaze err | 4.2 | 4.5 (ETH-XGaze) | ~7% |
| vs SOTA泛化: EXG+IMV→MPII | gaze err | 6.0 | 6.7 (CDG) | ~10% |
| vs SOTA泛化: EXG+IMV→GC | gaze err | 7.8 | 8.2 (RAT) | ~5% |
消融实验要点¶
- M+V vs V vs M: 联合目标M+V在所有数据集上优于单独使用V或M(如MPII: 4.0 vs 4.1 vs 4.2,G360: 9.6 vs 9.8 vs 9.8)
- 伪标签vs多视图一致性: 仅多视图一致性无拓扑约束效果极差(47.4°),仅伪标签(23.1°)优于仅MV,两者结合(18.1°)效果最佳
- ITWG头部姿态分布: 训练数据头部姿态越多样化(5°→20°→40°→90°),大角度性能持续提升,全范围ITWG-MV效果最佳
- 域内实验中ITWG的作用: 对需要多样化头姿的G360有提升(如G360+ITWG-MV: 9.3→15.4),但对已在受控环境有充足覆盖的EXG/MPII域内提升有限
亮点¶
- 将gaze estimation reformulate为dense 3D mesh regression 的思路非常巧妙,密集表示天然对稀疏预测误差鲁棒,且任何低维表示都可通过索引获取
- 伪标签生成pipeline无需任何视线标注,仅依赖3D人脸重建和2D虹膜定位即可自动生成,使得利用海量野外人脸数据成为可能
- 多视图一致性利用HeadGAN合成视图的几何约束来正则化伪标签噪声,是一种优雅的弱监督方式
- 模型架构极简(ResNet-18 + 2个FC),说明核心贡献在数据和训练框架而非模型设计
局限性 / 可改进方向¶
- 伪标签在俯仰轴(pitch)上较弱,可能因数据中垂直视线变化有限或伪标注pipeline本身的偏差
- 伪标注精度依赖3D人脸对齐和2D虹膜检测的准确性,面对极端遮挡或低分辨率仍有不确定性
- 无法处理面部不可见(背对相机)的情况
- HeadGAN生成的合成视图质量有限,使用更先进的人脸重演方法可能进一步提升
- 球形眼球模板忽略了kappa系数(光轴vs视轴偏移),在个人化场景中有精度上限
- 未探索Transformer等更强backbone的潜力
与相关工作的对比¶
- vs Kothari et al. [41] (CVPR 2021): 最相关的工作,同样利用3D场景几何约束从野外数据学习视线。3DGazeNet的关键优势在于:(a) 密集3D mesh表示而非稀疏参数;(b) 基于HeadGAN的多视图一致性而非社交场景中的对视约束;(c) 更大规模的ITWG数据集。在跨域设置中3DGazeNet以20-30%的幅度超越。
- vs RUDA/CRGA/PureGaze (域适应方法): 这些方法的第一阶段(无目标域知识)用于公平比较。3DGazeNet在使用ITWG-MV后全面超越,因为竞争方法无法有效利用伪标签,而3DGazeNet的多视图一致性框架能正则化伪标签噪声。
- vs 眼球模型方法 (DPG, Wood et al.): 传统的参数化眼球模型拟合受限于模型构建难度和野外拟合精度。3DGazeNet在端到端学习的范式下效果更好(Columbia数据集: 5.6° vs 7.1°/7.5°)。
启发与关联¶
- 密集表示替代稀疏参数的思路可迁移到其他姿态估计任务(如手部、人体姿态),暗示在标注稀缺场景下dense regression + weak supervision可能是通用有效的策略
- 合成多视图+一致性约束的弱监督范式具有通用性,可应用于任何存在几何变换不变性假设的任务
- 该方法的伪标签pipeline可为大规模视线估计数据集的自动构建提供参考
评分¶
- 新颖性: ⭐⭐⭐⭐ 将gaze estimation重构为dense 3D mesh regression是全新思路,多视图弱监督框架设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 跨域/域内/消融/应用(gaze redirection)全面覆盖,对比方法丰富
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,符合ECCV标准,补充材料详实
- 价值: ⭐⭐⭐⭐ 提供了即插即用的通用视线估计方案,对应用场景有直接价值