3DGazeNet: Generalizing 3D Gaze Estimation with Weak-Supervision from Synthetic Views¶

会议: ECCV 2024
arXiv: 2212.02997
代码: https://github.com/Vagver/3DGazeNet (有)
领域: 3D视觉 / 视线估计
关键词: 视线估计, 3D眼球网格回归, 弱监督, 多视图一致性, 合成视图

一句话总结¶

提出将视线估计重新表述为密集3D眼球网格回归，并通过从大规模野外人脸图像中自动提取伪标签+HeadGAN合成多视图进行弱监督训练，在跨域场景下比SOTA提升最多30%。

背景与动机¶

视线估计在人机交互、VR/AR、心理学分析等领域有广泛应用，但核心痛点在于跨域泛化困难。现有的视线数据集多在受控环境中采集，覆盖的人脸多样性、头部姿态和环境非常有限，导致模型在未见域上严重退化。主流方法依赖域适应（domain adaptation），需要目标域的样本甚至标注，无法作为即插即用的方案直接部署到新场景。同时，传统方法将视线估计建模为稀疏参数（角度/向量）回归，容易受到单点预测误差的影响。

核心问题¶

如何训练一个无需域适应、直接可部署到任意场景的通用视线估计模型？两个关键子问题：(1) 如何利用海量无标注的野外人脸数据来增强训练多样性；(2) 如何设计鲁棒的表示和训练框架来应对伪标签中的噪声。

方法详解¶

整体框架¶

输入一张人脸图像，裁剪左/右眼和全脸区域并resize到128×128，沿通道维度拼接后送入ResNet-18提取特征，再由两个全连接层分别回归：(a) 2×481个3D眼球网格顶点坐标，(b) 一个3D视线向量。最终视线方向取两个模态的均值。训练数据由三部分组成：有GT标注的视线数据集、带伪标注的大规模野外人脸数据集(ITWG, 255K张)、以及用HeadGAN生成的多视图对(ITWG-MV)。

关键设计¶

统一3D眼球表示: 定义了一个刚性球形3D眼球模板（481个顶点、928个三角面片），通过虹膜定位和3D人脸对齐自动拟合到任意人脸图像上。对有GT的数据集通过视线标签旋转模板并对齐到虹膜；对野外数据则借助RetinaFace进行3D人脸重建+2D虹膜检测，将2D虹膜位置提升到3D来确定眼球朝向，以此生成伪GT。这一设计使得任何稀疏表示（如虹膜边界等）都可以通过索引密集mesh来获取。
联合Mesh+Vector双头回归: 不同于直接回归角度或稀疏特征点，模型同时预测密集3D眼球网格和3D视线向量。消融实验表明M+V目标比单独用V或M效果更好——密集mesh提供对稀疏预测误差的鲁棒性，而向量提供精确的标签监督。
多视图一致性监督: 利用HeadGAN对每张野外人脸合成不同头部姿态的视图（保持相对视线方向不变），形成图像对。通过3D人脸重建计算两视图间的变换矩阵P，强制模型对同一人不同视角的预测在变换后保持一致。这一弱监督信号可有效平衡伪标签的噪声，无需任何真实视线标注即可训练。

损失函数 / 训练策略¶

顶点损失 \(\mathcal{L}_{vert}\): 预测与GT (伪)3D眼球坐标的L1距离
边长损失 \(\mathcal{L}_{edge}\): 基于固定三角化的边长L2距离，保持mesh拓扑
视线损失 \(\mathcal{L}_{gaze}\): 预测与GT视线向量的角度误差
多视图顶点一致性损失 \(\mathcal{L}_{MV,vertex}\): 变换后两视图预测的顶点L1距离
多视图视线一致性损失 \(\mathcal{L}_{MV,gaze}\): 旋转后两视图视线向量角度误差
总损失: \(\mathcal{L} = \lambda_{GT}\mathcal{L}_{GT} + \lambda_{PGT}\mathcal{L}_{PGT} + \lambda_{MV}\mathcal{L}_{MV}\)，三项权重均为1
超参: \(\lambda_v=0.1, \lambda_e=0.01, \lambda_g=1\)
训练: Adam, batch=128, lr warmup 1e-6→1e-4 (3 epochs), 在60/80 epoch衰减10倍, 共100 epochs, 单卡V100

实验关键数据¶

数据集/设置	指标(°)	3DGazeNet	之前SOTA	提升
跨域(仅伪标签): ITWG-MV→G360	gaze err	18.1	22.5 ([41])	~20%
跨域(仅伪标签): AVA→G360	gaze err	22.4	29.0 ([41])	~23%
跨域(+GT): GC+ITWG-MV→G360	gaze err	17.6	-	-
跨域(+GT): EXG+ITWG-MV→G360	gaze err	15.4	-	-
域内: MPII (M+V)	gaze err	4.0	4.04 (GazeTR)	持平
域内: G360 (M+V)	gaze err	9.6	10.1 ([41])	~5%
域内: GC (M+V)	gaze err	3.1	3.3 (ETH-XGaze)	~6%
域内: EXG (M+V)	gaze err	4.2	4.5 (ETH-XGaze)	~7%
vs SOTA泛化: EXG+IMV→MPII	gaze err	6.0	6.7 (CDG)	~10%
vs SOTA泛化: EXG+IMV→GC	gaze err	7.8	8.2 (RAT)	~5%

消融实验要点¶

M+V vs V vs M: 联合目标M+V在所有数据集上优于单独使用V或M（如MPII: 4.0 vs 4.1 vs 4.2，G360: 9.6 vs 9.8 vs 9.8）
伪标签vs多视图一致性: 仅多视图一致性无拓扑约束效果极差（47.4°），仅伪标签（23.1°）优于仅MV，两者结合（18.1°）效果最佳
ITWG头部姿态分布: 训练数据头部姿态越多样化(5°→20°→40°→90°)，大角度性能持续提升，全范围ITWG-MV效果最佳
域内实验中ITWG的作用: 对需要多样化头姿的G360有提升（如G360+ITWG-MV: 9.3→15.4），但对已在受控环境有充足覆盖的EXG/MPII域内提升有限

亮点¶

将gaze estimation reformulate为dense 3D mesh regression 的思路非常巧妙，密集表示天然对稀疏预测误差鲁棒，且任何低维表示都可通过索引获取
伪标签生成pipeline无需任何视线标注，仅依赖3D人脸重建和2D虹膜定位即可自动生成，使得利用海量野外人脸数据成为可能
多视图一致性利用HeadGAN合成视图的几何约束来正则化伪标签噪声，是一种优雅的弱监督方式
模型架构极简（ResNet-18 + 2个FC），说明核心贡献在数据和训练框架而非模型设计

局限性 / 可改进方向¶

伪标签在俯仰轴(pitch)上较弱，可能因数据中垂直视线变化有限或伪标注pipeline本身的偏差
伪标注精度依赖3D人脸对齐和2D虹膜检测的准确性，面对极端遮挡或低分辨率仍有不确定性
无法处理面部不可见（背对相机）的情况
HeadGAN生成的合成视图质量有限，使用更先进的人脸重演方法可能进一步提升
球形眼球模板忽略了kappa系数（光轴vs视轴偏移），在个人化场景中有精度上限
未探索Transformer等更强backbone的潜力

与相关工作的对比¶

vs Kothari et al. [41] (CVPR 2021): 最相关的工作，同样利用3D场景几何约束从野外数据学习视线。3DGazeNet的关键优势在于：(a) 密集3D mesh表示而非稀疏参数；(b) 基于HeadGAN的多视图一致性而非社交场景中的对视约束；(c) 更大规模的ITWG数据集。在跨域设置中3DGazeNet以20-30%的幅度超越。
vs RUDA/CRGA/PureGaze (域适应方法): 这些方法的第一阶段（无目标域知识）用于公平比较。3DGazeNet在使用ITWG-MV后全面超越，因为竞争方法无法有效利用伪标签，而3DGazeNet的多视图一致性框架能正则化伪标签噪声。
vs 眼球模型方法 (DPG, Wood et al.): 传统的参数化眼球模型拟合受限于模型构建难度和野外拟合精度。3DGazeNet在端到端学习的范式下效果更好（Columbia数据集: 5.6° vs 7.1°/7.5°）。

启发与关联¶

密集表示替代稀疏参数的思路可迁移到其他姿态估计任务（如手部、人体姿态），暗示在标注稀缺场景下dense regression + weak supervision可能是通用有效的策略
合成多视图+一致性约束的弱监督范式具有通用性，可应用于任何存在几何变换不变性假设的任务
该方法的伪标签pipeline可为大规模视线估计数据集的自动构建提供参考

评分¶

新颖性: ⭐⭐⭐⭐ 将gaze estimation重构为dense 3D mesh regression是全新思路，多视图弱监督框架设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 跨域/域内/消融/应用(gaze redirection)全面覆盖，对比方法丰富
写作质量: ⭐⭐⭐⭐ 论文结构清晰，符合ECCV标准，补充材料详实
价值: ⭐⭐⭐⭐ 提供了即插即用的通用视线估计方案，对应用场景有直接价值