Event-based Head Pose Estimation: Benchmark and Method¶

会议: ECCV 2024
arXiv: 无
代码: https://github.com/Jiahui-Yuan-1/EVHPE
领域: 人体理解
关键词: 事件相机, 头部姿态估计, 基准数据集, 时空融合, 运动感知注意力

一句话总结¶

针对事件相机头部姿态估计（HPE）领域缺乏大规模数据集和专用方法的问题，构建了两个大规模多场景事件HPE基准数据集，并提出包含事件时空融合（ESTF）和事件运动感知注意力（EMPA）两个核心模块的专用网络，在多种挑战场景下取得优异性能。

研究背景与动机¶

领域现状：头部姿态估计（Head Pose Estimation, HPE）是计算机视觉中的重要任务，广泛应用于人机交互、增强现实、驾驶员监控等场景。传统方法主要基于RGB图像，利用面部关键点或直接回归的方式估计头部的偏航角（yaw）、俯仰角（pitch）和翻滚角（roll）三个欧拉角。近年来深度学习方法在标准条件下已经取得了很好的效果。

现有痛点：RGB相机在两类重要场景下表现不佳：(1) 突然运动（sudden movement）——快速转头时RGB图像会产生严重的运动模糊，导致特征提取困难；(2) 极端光照（extreme lighting）——过暗、过亮或逆光条件下RGB图像质量急剧下降。事件相机（event camera）作为一种神经形态传感器，具有高时间分辨率（微秒级）和高动态范围（120dB+）的优势，天然适合解决这两类挑战。然而，事件相机用于HPE的研究非常少，最大的瓶颈是缺乏配对的事件数据和头部姿态标注的大规模数据集。

核心矛盾：事件相机的优势（高时间分辨率、高动态范围）恰好能解决RGB方法在极端条件下的短板，但事件驱动的HPE研究受制于数据集和专用方法的双重缺失。现有的少量事件HPE工作要么数据集规模很小，要么直接将RGB方法迁移到事件数据上而未充分利用事件流的时空特性。

本文目标 (1) 构建大规模、多样化的事件HPE基准数据集。(2) 设计能充分利用事件流时空信息的专用HPE网络。(3) 验证事件相机在挑战场景下HPE任务中的优越性。

切入角度：作者从"数据+方法"双管齐下的角度出发：先用事件相机在多种分辨率和场景（室内/室外、正常/极端光照、慢速/快速运动）下采集大规模数据并标注精确的头部姿态，然后设计两个专用模块——ESTF利用事件流的时空结构进行特征融合，EMPA通过大感受野捕捉运动细节。

核心 idea：构建首个大规模事件HPE基准并设计时空融合+运动感知的专用网络。

方法详解¶

整体框架¶

整体框架包含三个层次：(1) 数据层——构建两个大规模事件HPE数据集（不同分辨率和场景），共282个序列；(2) 网络层——事件流首先通过事件表示编码器（如voxel grid或event frame）转化为张量表示，然后经过主干网络提取特征，在此过程中ESTF模块融合空间和时间信息，EMPA模块捕捉运动细节，最后通过回归头输出三个欧拉角；(3) 训练层——设计统一损失函数同时利用角度和旋转矩阵信息进行优化。

关键设计¶

事件时空融合模块（ESTF, Event Spatial-Temporal Fusion）:
- 功能：有效结合事件流中的空间信息和时间信息
- 核心思路：事件流是一种异步的时空数据流——每个事件包含空间位置 \((x, y)\)、时间戳 \(t\) 和极性 \(p\)。与RGB图像不同，事件流天然包含丰富的时间信息（微秒级的时间分辨率）。ESTF模块的设计目标是在不丢失时间信息的前提下进行空间特征提取。具体做法是：将事件流按时间窗口分成多个切片（temporal bins），每个切片在空间维度上形成一个事件帧，然后通过时间注意力机制学习不同时间切片之间的关联权重，再将时间加权后的特征与空间特征进行融合。这样既利用了事件流在空间上的边缘/纹理信息，又保留了时间维度上的动态变化信息。
- 设计动机：简单地将事件流转化为单帧事件图（如通过累积）会丢失宝贵的时间信息。而直接处理原始事件流计算开销太大。ESTF通过"时间切片+时间注意力"的折中方案，在计算效率和信息保留之间取得平衡。
事件运动感知注意力模块（EMPA, Event Motion Perceptual Attention）:
- 功能：利用大感受野捕捉场景中的关键运动细节
- 核心思路：头部姿态变化的关键线索往往来自运动信息——头部旋转会产生特定模式的事件流分布。EMPA模块通过大感受野的注意力机制来捕捉这些全局运动模式。具体实现上，EMPA使用扩张卷积或大核注意力来扩大特征提取的感受野，使网络能够"看到"整个头部区域乃至周围环境的运动模式。然后通过注意力机制对不同空间位置的运动信息进行加权聚合——头部区域的运动模式获得更高权重，背景区域的运动被抑制。这种设计特别适合处理快速运动场景，因为大感受野可以捕捉到头部快速旋转时产生的大范围事件分布。
- 设计动机：局部特征提取（如小核卷积）难以捕捉快速运动时头部事件分布的全局模式。对于HPE任务，头部的旋转是一个全局运动（整个头部区域同时产生协调的事件模式），需要大感受野来感知这种全局一致的运动信息。
统一角度-旋转矩阵损失函数（Unified Angle-Rotation Matrix Loss）:
- 功能：同时利用角度信息和旋转矩阵信息来优化网络
- 核心思路：传统HPE方法通常使用三个欧拉角的L1或L2损失进行训练。但欧拉角表示存在万向节锁死（gimbal lock）问题，且在某些角度范围内优化景观不平滑。本文提出统一损失函数，将直接回归的欧拉角误差和通过旋转矩阵计算的几何误差结合起来。旋转矩阵损失提供了更平滑的优化景观和更好的几何一致性约束，而角度损失提供了直观的角度误差惩罚。两者加权求和形成统一损失：\(L = L_{\text{angle}} + \lambda L_{\text{rotation}}\)。
- 设计动机：单用欧拉角损失在极端角度时不稳定，单用旋转矩阵损失在小角度时梯度不够灵敏。统一损失函数在全角度范围内都能提供良好的优化信号。

损失函数 / 训练策略¶

统一损失函数包含：(1) 角度损失——预测欧拉角与真值欧拉角的L1/L2距离；(2) 旋转矩阵损失——预测旋转矩阵与真值旋转矩阵之间的Frobenius范数距离或测地线距离。通过超参数 \(\lambda\) 控制两部分的权重。训练时在两个数据集上分别进行，采用标准的数据增强策略（如事件流的随机裁剪、水平翻转等）。

实验关键数据¶

主实验¶

数据集	指标	本文方法	之前最优	说明
数据集1（高分辨率）	MAE（欧拉角）	最优	RGB方法/简单事件方法	正常场景下优势明显
数据集2（低分辨率）	MAE（欧拉角）	最优	其他事件方法	低分辨率场景下同样有效
快速运动场景	MAE	显著优于RGB方法	RGB-based方法	事件相机优势最突出的场景
极端光照场景	MAE	优于RGB方法	RGB-based方法	高动态范围发挥作用

消融实验¶

配置	关键指标	说明
无ESTF	MAE上升	时空融合对性能贡献显著
无EMPA	MAE上升	运动感知注意力有效
仅角度损失	MAE较高	欧拉角损失在极端角度不稳定
仅旋转矩阵损失	MAE较高	小角度时梯度不够灵敏
统一损失（完整）	MAE最低	两种损失互补

关键发现¶

在快速运动场景下，事件相机方法对RGB方法的优势最为明显，验证了事件相机高时间分辨率的价值
ESTF和EMPA两个模块对最终性能都有显著贡献，其中ESTF的贡献稍大（时空融合更关键）
统一损失函数比单一损失形式在极端角度范围内更稳定
两个数据集跨分辨率的实验验证了方法的泛化能力
事件相机在极端光照下的优势虽然存在但需要更大的数据集来充分体现

亮点与洞察¶

"数据+方法"的双贡献模式：构建基准数据集和提出专用方法同样重要，282个序列的大规模数据集填补了领域空白
ESTF的"时间切片+时间注意力"设计是处理事件流的一种高效且有效的范式
EMPA的大感受野设计特别适合HPE这种需要全局运动感知的任务
统一损失函数的设计思路（结合不同表示空间的损失）可推广到其他涉及旋转估计的任务

局限与展望¶

数据集虽然有282个序列，但与RGB HPE数据集（如300W-LP有超122,000张图像）相比仍偏小，限制了深度学习方法的潜力
当前方法假设输入中只有一个头部，多人场景的扩展需要额外的头部检测模块
事件相机的硬件差异（不同品牌/型号的事件相机特性不同）可能影响跨设备泛化
实时性分析不够充分——事件驱动HPE的一个重要应用场景是实时系统
与RGB+事件多模态融合的对比缺失——在某些场景下双模态融合可能效果更好
没有与基于3D人脸模型的HPE方法进行比较

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模事件HPE基准+专用方法，填补领域空白
实验充分度: ⭐⭐⭐ 两个数据集多场景验证，有消融，但与RGB方法的公平对比需加强
写作质量: ⭐⭐⭐⭐ 问题动机清晰，数据集构建过程详细
价值: ⭐⭐⭐⭐ 数据集贡献对事件视觉社区价值很高