Gaze Target Detection Based on Head-Local-Global Coordination¶
会议: ECCV 2024
arXiv: 无
代码: 无
领域: 人体理解 / 目光检测
关键词: 注视目标检测, 头部-局部-全局协调, 视野范围, 多视图融合, 注视预测
一句话总结¶
提出了一种基于头部-局部-全局三视图协调的注视目标检测方法,通过引入基于FOV(视野范围)的局部视图,并设计全局-局部位置与表示一致性机制,显著提升了注视目标预测的准确性。
研究背景与动机¶
-
领域现状: 注视目标检测(Gaze Target Detection)是计算机视觉中的一个重要任务,旨在预测图像中人物正在注视的目标位置或物体。该任务在人机交互、社会行为分析、自动驾驶中的行人意图理解等领域有广泛应用。现有方法通常采用两阶段策略:(a) 从头部区域估计视线方向,(b) 在全局图像中识别显著目标,然后结合两者确定注视目标。
-
现有痛点:
- 依赖全局视图的局限性:传统方法主要依赖头部视图(head crop)和全局视图(full image),全局视图包含大量与注视无关的背景信息,容易引入噪声,特别是当场景复杂、存在多个潜在目标时
- 缺乏局部上下文:全局视图和头部视图之间存在尺度跨度过大的问题——头部区域过小而全局图像过大,缺少一个中间尺度的上下文来帮助模型理解注视方向上的物体
- 视图之间的信息整合不足:头部特征和全局特征的简单拼接或注意力融合无法有效地利用空间位置关系
-
核心矛盾: 全局视图的信息过于冗余而缺乏针对性,但头部视图又太局限——需要一个更好的视角来桥接头部和全局之间的信息鸿沟。
-
本文目标: 设计一种更有效的多视图融合方案,通过引入局部视图来补充头部和全局视图之间缺失的中间尺度信息,并设计相应的视图协调机制来整合三个视图的特征。
-
切入角度: 引入基于人眼视野范围(Field of View, FOV)的局部视图(local view)作为第三视图。FOV局部视图聚焦于人物视线方向前方一定范围内的图像区域,比全局视图更具针对性,比头部视图提供更丰富的上下文。
-
核心 idea: 通过构建头部-局部-全局三视图框架,并设计位置和表示一致性机制进行多视图协调,实现更准确的注视目标预测。
方法详解¶
整体框架¶
方法包含四个核心模块: 1. 视图构建:从输入图像中提取头部视图、FOV局部视图和全局视图 2. 特征提取:分别对三个视图提取视觉特征 3. 视图协调:通过全局-局部位置和表示一致性机制整合三视图特征 4. 目标预测:基于融合特征预测注视目标位置(热力图形式)
关键设计¶
-
基于FOV的局部视图构建(FOV-based Local View):
- 功能:从全局图像中裁剪出人物视线方向前方的局部区域作为局部视图
- 核心思路:首先从头部区域估计粗略的视线方向(gaze direction),然后以头部中心为基准,沿视线方向在全局图像中裁剪一个特定大小的区域。该区域的大小和方向由估计的视线方向和人眼的视野范围(FOV)决定
- 设计动机:人类的注视目标大概率位于视线方向前方的有限区域内,FOV局部视图可以有效缩小目标搜索范围,同时提供头部和全局之间的中间尺度上下文。这种设计模拟了人眼的注视机制——先确定大致方向,再在局部区域中精确定位目标
-
全局-局部位置一致性(Global-Local Position Consistency):
- 功能:建立全局视图和局部视图之间的空间位置对应关系
- 核心思路:由于局部视图是从全局视图中裁剪得到的,两者之间存在明确的空间对应关系。该模块通过位置编码和坐标变换,将局部视图中检测到的目标位置映射回全局坐标系,确保预测结果在空间上的一致性
- 设计动机:避免局部视图和全局视图给出矛盾的位置预测,确保两个尺度上的信息可以互补
-
全局-局部表示一致性(Global-Local Representation Consistency):
- 功能:在特征层面融合三个视图的表示,确保语义一致性
- 核心思路:设计跨视图的注意力机制,让头部视图、局部视图和全局视图的特征进行交互。具体来说,使用头部特征作为query,分别attend到局部视图和全局视图的特征上,获取注视方向相关的信息。同时对局部和全局的特征进行一致性约束,确保它们对同一区域的表示是一致的
- 设计动机:三个视图从不同尺度和角度观察同一场景,需要在特征空间中统一它们的表示,才能有效利用各视图的互补信息
损失函数 / 训练策略¶
- 注视热力图损失:使用二元交叉熵损失监督预测的注视目标热力图
- 视线方向回归损失:L2损失监督估计的视线方向角度
- 一致性损失:对全局-局部表示的一致性施加对比学习或MSE约束
- 场景内/场景外分类损失:二分类损失判断注视目标是否在图像范围内
- 多任务联合训练:同时优化位置预测、方向估计和场景内外判断
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|
| GazeFollow | AUC | SOTA | 之前最佳方法 | 显著提升 |
| GazeFollow | Avg. Dist. | SOTA(更低距离) | 之前最佳方法 | 明显降低 |
| GazeFollow | Min. Dist. | SOTA(更低距离) | 之前最佳方法 | 明显降低 |
| VideoAttentionTarget | AUC | SOTA | 之前最佳方法 | 显著提升 |
| VideoAttentionTarget | Avg. Dist. | SOTA | 之前最佳方法 | 明显降低 |
| ChildPlay | AUC | SOTA | 之前最佳方法 | 提升 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅全局+头部(无局部视图) | AUC较低 | 传统两视图方案的基线 |
| 加入局部视图(无协调机制) | AUC提升 | 局部视图本身即有贡献 |
| 加入位置一致性 | AUC进一步提升 | 空间对应关系有助于准确定位 |
| 加入表示一致性 | AUC持续提升 | 语义层面的特征融合很重要 |
| 完整模型(全部组件) | AUC最高 | 三个组件互补协同 |
| 不同FOV范围大小 | 存在最优值 | 太大退化为全局,太小覆盖不足 |
关键发现¶
- 局部视图的引入对注视目标检测有显著且一致的性能提升
- FOV局部视图的设计比随机裁剪或固定大小裁剪更为有效
- 该方法具有良好的可扩展性——可以作为插件增强现有的注视目标检测方法
- 在多个基准数据集上取得了state-of-the-art性能
- 视图协调机制的两个组件(位置一致性和表示一致性)都有独立的贡献
亮点与洞察¶
- 设计直觉优雅:FOV局部视图的引入模拟了人眼的注视机制——先从头部估计大致方向,再在视野范围内搜索目标,非常符合认知直觉
- 可扩展性:论文展示了将该框架应用于增强现有注视检测方法的能力,证明了方法的普适性
- 多尺度信息互补:头部视图提供面部朝向信息,局部视图提供目标候选区域,全局视图提供场景上下文——三者形成有效的信息互补
- 位置和表示的双重一致性:不仅在空间位置上保持一致,还在特征表示上追求一致,是一种全面的融合策略
局限与展望¶
- FOV局部视图的构建依赖于初始的视线方向估计,如果初始估计偏差较大,局部视图可能无法覆盖到真正的注视目标
- 当场景中存在多个人物时,不同人物的局部视图可能重叠,增加了处理复杂度
- 对于注视目标在图像边缘或图像外部的情况,局部视图的有效性可能降低
- 可以探索利用时序信息(视频中前后帧的注视轨迹)来进一步提升预测准确性
- 与深度信息结合可能有助于解决注视目标在3D空间中的远近歧义
相关工作与启发¶
- GazeFollow / VideoAttentionTarget:注视目标检测的经典数据集和基线方法
- Detecting Attended Visual Targets in Video:视频中注视目标检测的开创性工作
- Gaze360:360°环境下的视线估计方法
- Where are they looking / Who is looking at who:社交场景中的注视分析方法
- 启发:多尺度的视图设计和人类视觉认知机制的结合是一种有效的方法论
评分¶
- 新颖性: ⭐⭐⭐⭐ 引入FOV局部视图和三视图协调机制是全新的框架设计
- 实验充分度: ⭐⭐⭐⭐ 多个基准、充分消融、可扩展性验证
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰,设计逻辑自然流畅
- 价值: ⭐⭐⭐⭐ 提出了可扩展的框架,对注视目标检测领域有实际推动作用
相关论文¶
- [CVPR 2026] GazeOnce360: Fisheye-Based 360° Multi-Person Gaze Estimation with Global-Local Feature Fusion
- [ECCV 2024] De-confounded Gaze Estimation
- [ECCV 2024] Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection
- [ECCV 2024] Momentum Auxiliary Network for Supervised Local Learning
- [ECCV 2024] GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths