Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders¶

会议: CVPR 2025
arXiv: 2412.09586
代码: github.com/fkryan/gazelle
领域: 模型压缩 / 视线估计
关键词: 视线目标估计, DINOv2, 基础模型, 位置提示, 轻量解码器

一句话总结¶

提出 Gaze-LLE，一个基于冻结 DINOv2 编码器的极简视线目标估计框架——仅用 ~2.8M 可训练参数（比先前方法少 1-2 个数量级）、无需辅助深度/姿态模型、无需独立头部编码器，通过人物位置提示 + 轻量 transformer 解码器即在 GazeFollow/VideoAttentionTarget 等基准上达到 SOTA（AUC 0.958）。

研究背景与动机¶

领域现状：视线目标估计预测人在场景中看向哪里，是理解人类行为的关键环节。先前方法都采用多分支架构：独立的头部编码器 + 场景编码器，加上深度/姿态/目标检测等辅助模型，特征融合复杂。

现有痛点：（1）多分支架构训练复杂，需要精心设计融合机制和多任务损失；（2）可训练参数量大（通常 30-100M+）；（3）收敛慢——通常需要数十 GPU 小时。DINOv2 等基础模型在深度估计等密集预测任务上表现优异，但直接替换到现有视线架构中反而性能下降。

核心矛盾：DINOv2 特征强大，但现有视线架构无法有效利用——因为多分支设计要求将头部位置信息在编码前注入（RGB + head channel），冻结 DINOv2 时无法适应这种输入格式。

切入角度：三个关键设计决策——（1）头部位置在编码器之后注入而非之前；（2）用 transformer 而非 CNN 解码，获得全局信息传播；（3）取消独立头部分支，因为 DINOv2 已编码足够的头部朝向信息。

核心 idea：冻结 DINOv2 + 位置提示式轻量解码器 = 极简且 SOTA 的视线估计。

方法详解¶

整体框架¶

输入 RGB 图像经冻结 DINOv2 编码器提取场景 token 特征图（\(d_\mathcal{F} \times H \times W\)），线性投影到 \(d_\text{model}\)。在特征图上的头部位置添加可学习位置嵌入（head prompting），然后送入 3 层 transformer 编码器更新特征。最后上采样解码为热图 + 可选的 in/out 分类。

关键设计¶

Head Position Prompting（头部位置提示）：将头部 bounding box 下采样为二值 mask \(M\)，在对应位置的 token 上加上可学习嵌入 \(p_\text{head}\)：\(S = x_\mathcal{F} + (M * p_\text{head})\)。关键是在编码器之后注入（late integration），使冻结编码器的特征不受头部信息干扰
轻量 Transformer 解码器：仅 3 层标准 transformer encoder layer + 2D 正弦位置编码，利用 self-attention 的全局信息传播能力，使距离头部较远的视线目标也能被捕捉（CNN 解码器因感受野限制失败）
无需头部分支（No Head Branch）：实验证明使用 transformer 解码器时，额外的头部裁剪分支几乎不带来提升（AUC 0.954 vs 0.953），因为 DINOv2 的全局特征已编码了头部朝向信息，transformer 的全局注意力能自动提取

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_\text{hm} + \lambda \mathcal{L}_\text{in/out}\]

\(\mathcal{L}_\text{hm}\) 是像素级 BCE 损失，GT 为高斯热图（\(\sigma=3\)）。\(\mathcal{L}_\text{in/out}\) 是 BCE 分类损失。DINOv2 backbone 完全冻结，仅训练 2.8M 参数的解码器。训练时间 < 1.5 GPU 小时即达 SOTA。

实验关键数据¶

方法	可训练参数	输入	GazeFollow AUC↑	Avg L2↓	Min L2↓
Chong et al.	~61M	I	0.921	0.137	0.077
Gupta et al.	35M	I+D+P	0.943	0.114	0.056
Tafasca et al.	105M	I	0.944	0.113	0.057
Gaze-LLE (ViT-B)	2.8M	I	0.956	0.104	0.045
Gaze-LLE (ViT-L)	2.9M	I	0.958	0.099	0.041

设计决策消融¶

头部注入位置	解码器	分支	AUC	Avg L2
编码器前(early)	CNN	H+S	0.854	0.254
编码器前(early)	Transformer	H+S	0.904	0.178
编码器后(late)	CNN	H+S	0.932	0.155
编码器后(late)	Transformer	H+S	0.954	0.113
编码器后(late)	Transformer	仅 S	0.953	0.114

关键发现¶

DINOv2 直接替换到现有架构中性能下降（AUC 0.921→0.908），必须配合新解码器设计
Late head integration 比 early integration 提升 AUC ~0.05——冻结编码器的关键决策
Transformer 解码器 vs CNN 解码器：AUC 0.953 vs 0.916（无头部分支时差距更大）
跨数据集零样本泛化能力强——无需微调即在 ChildPlay 和 GOO-Real 上表现良好

亮点与洞察¶

极致简化——将多分支复杂架构简化为单一编码器+轻量解码器，参数量减少 10-40 倍
训练效率惊人——< 1.5 GPU 小时即达 SOTA，先前方法需要数十小时
head prompting 的启示——冻结基础模型时，任务条件信息应在特征提取后注入
首次证明视线估计可以不需要深度/姿态等辅助信号，DINOv2 已隐式编码这些信息

局限与展望¶

依赖预训练 DINOv2 的质量——更大更强的基础模型会进一步提升
仅处理单人视线，多人场景需要多次前向解码
视频场景仅逐帧处理，未利用时序信息
Head bounding box 由外部检测器提供（不是端到端的）
对极端遮挡或低分辨率头部的鲁棒性未充分探讨

VideoAttentionTarget 结果¶

方法	AUC↑	L2↓	AP in/out↑
Chong et al.	0.860	0.134	0.853
Miao et al.	0.917	0.109	0.908
Gaze-LLE (ViT-L)	0.937	0.103	0.903

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次证明冻结基础模型+轻量解码器可完成视线估计
实验充分度: ⭐⭐⭐⭐⭐ 设计空间分析极其详尽，4个benchmark
写作质量: ⭐⭐⭐⭐⭐ 设计决策的分析和叙述非常清晰
价值: ⭐⭐⭐⭐⭐ 为视线估计指明了基础模型时代的正确范式