PoseSOR: Human Pose Can Guide Our Attention¶
会议: ECCV 2024
arXiv: N/A
代码: https://github.com/guanhuankang/ECCV24PoseSOR (有)
领域: 人体理解 / 显著性检测
关键词: 显著目标排序, 人体姿态, 注意力引导, 高层交互, 姿态感知
一句话总结¶
本文首次将人体姿态信息引入显著目标排序(SOR)任务,通过提出姿态感知交互模块(PAI)和姿态驱动排序模块(PDR)来建模人体活动与注意力转移的关系,在复杂场景中显著提升了SOR性能并达到SOTA。
研究背景与动机¶
领域现状:显著目标排序(Salient Object Ranking, SOR)旨在研究人类观察者在场景中不同对象之间如何转移注意力。现有方法主要依赖显式的视觉显著性线索来完成这一任务,例如空间频率、语义上下文、颜色对比度等低层和中层视觉特征。
现有痛点:这些基于视觉显著性线索的方法在处理涉及人类活动和交互的真实世界场景时往往表现不佳。例如,当多人在场景中进行不同活动(如跑步、指向某物、交谈等),仅依赖空间频率和语义上下文不足以准确判断观察者的注意力会转向何处。现有方法忽略了一个关键的注意力引导因素——人体姿态和手势。
核心矛盾:人类观察者的注意力常常会被场景中人物的姿态和手势所"反射性"引导。例如,观察者倾向于跟随他人的头部朝向或跑步/行走方向来预判即将发生的事情。这种高层交互信息对于理解注意力转移至关重要,但现有SOR方法完全没有利用这一线索。
本文目标 (1) 如何将人体姿态知识融入显著目标查询中以学习高层交互关系;(2) 如何利用姿态作为方向性线索来预测注意力转移方向。
切入角度:作者观察到人们在看图片时,会自然地被图中人物的姿态引导注意力。比如看到一个人在跑步,我们会下意识地看向他跑步的方向。这个直觉性的观察启发了将人体姿态作为SOR任务的重要先验知识。
核心 idea:利用人体姿态信息作为高层交互线索和方向引导来增强显著目标排序,弥补传统视觉显著性线索在复杂人物交互场景中的不足。
方法详解¶
整体框架¶
PoseSOR是一个人体姿态感知的显著目标排序模型。整体pipeline为:输入图像首先经过特征提取得到视觉特征,同时通过姿态估计器提取场景中人物的姿态信息(关键点坐标和骨架结构)。然后通过两个核心模块——姿态感知交互模块(PAI)和姿态驱动排序模块(PDR)——将姿态知识融入目标排序过程。最终输出场景中所有显著目标的排序结果,反映人类注意力的优先级。
关键设计¶
-
姿态感知交互模块(Pose-Aware Interaction, PAI):
- 功能:将人体姿态知识整合到显著目标查询中,使模型能够学习人物与周围环境之间的高层交互关系
- 核心思路:首先从姿态估计器获取每个人物的关键点信息(头部、手臂、躯干、腿部等),将这些姿态特征编码为姿态嵌入。然后通过交叉注意力机制,将姿态嵌入与显著目标查询进行融合。具体地,姿态嵌入作为key和value,目标查询作为query,通过注意力权重来决定每个目标应该关注哪些人体姿态信息。这样目标查询就包含了"场景中的人在做什么"的上下文信息
- 设计动机:传统方法只看目标本身的视觉属性来判断显著性,但人体活动(如指向、注视、走向某物)实际上是注意力引导的重要线索。PAI模块使模型能够"理解"人的行为意图
-
姿态驱动排序模块(Pose-Driven Ranking, PDR):
- 功能:利用姿态知识作为方向性线索来预测人类注意力的转移方向,从而进行目标排序
- 核心思路:从人体姿态中提取方向性信息,包括头部朝向(表示注视方向)、肢体运动方向(表示行进方向)等。将这些方向信息编码为方向向量,与场景中各目标的空间位置关系进行匹配。匹配度高的目标会获得更高的排序优先级。模块内部使用空间注意力图来建模方向性线索与目标位置的对应关系
- 设计动机:人的注意力转移有明显的方向性——我们倾向于沿着他人注视或运动的方向寻找下一个注意目标。PDR利用这一直觉,将姿态方向作为排序的重要依据
-
多尺度特征融合与排序头:
- 功能:综合PAI和PDR的输出,在多尺度特征上生成最终的排序预测
- 核心思路:模型在不同尺度上提取特征以捕捉不同大小的目标。PAI和PDR在各尺度上独立工作后,通过特征金字塔网络(FPN)进行融合。排序头使用这些融合特征为每个检测到的显著目标分配一个排序分数
- 设计动机:场景中的目标大小各异,多尺度处理确保小目标和大目标都能获得准确的排序
损失函数 / 训练策略¶
模型采用排序损失函数进行训练,包括成对排序损失(pairwise ranking loss)来优化目标之间的相对排序关系,以及分割损失来辅助目标定位。多任务联合训练使得排序预测与目标分割相互促进。
实验关键数据¶
主实验¶
| 数据集 | 指标 | PoseSOR | 之前SOTA | 提升 |
|---|---|---|---|---|
| ASSR | SA-SOR (↑) | 0.713 | 0.685 | +4.1% |
| ASSR | MAE (↓) | 0.034 | 0.039 | -12.8% |
| IRSR | SA-SOR (↑) | 0.698 | 0.672 | +3.9% |
| IRSR | MAE (↓) | 0.041 | 0.047 | -12.8% |
消融实验¶
| 配置 | SA-SOR | 说明 |
|---|---|---|
| Full model (PAI+PDR) | 0.713 | 完整模型 |
| w/o PAI | 0.691 | 去掉姿态交互后掉3.1% |
| w/o PDR | 0.695 | 去掉方向排序后掉2.5% |
| w/o 姿态 (baseline) | 0.678 | 不用姿态信息掉4.9% |
关键发现¶
- PAI模块贡献最大,表明高层交互建模对SOR至关重要
- PDR的方向性引导在涉及多人活动的复杂场景中提升更为显著
- 在简单场景(少量目标、无人物)中,姿态信息带来的提升有限,但在复杂人物交互场景中优势明显
- 姿态估计的准确度对最终排序有一定影响,但模型对姿态噪声有较好的鲁棒性
亮点与洞察¶
- 姿态作为注意力先验是一个非常自然且巧妙的想法。人类确实会被他人的姿态"引导"注意力,这一认知心理学发现被首次引入计算机视觉的SOR任务,开辟了新的研究方向
- PAI和PDR的互补设计很精巧:PAI负责"理解人在做什么",PDR负责"预测注意力往哪走",两者从不同角度利用姿态信息
- 姿态信息可以迁移到其他注意力相关任务,如视觉问答(VQA)中的注视引导、视频摘要中的关键人物检测等
局限与展望¶
- 当场景中没有人物时,姿态信息无法提供帮助,模型退化为普通SOR方法
- 依赖外部姿态估计器的准确性,姿态估计失败时会影响排序质量
- 只考虑了静态图像中的姿态,未利用视频中的动态姿态信息(运动轨迹、手势变化等)
- 可以探索结合眼动追踪数据进行更精确的注意力建模
相关工作与启发¶
- vs ASSR: ASSR使用纯视觉显著性线索进行排序,缺乏对人体活动的理解。PoseSOR通过引入姿态信息在复杂场景中表现更好
- vs RankNet: RankNet使用通用的成对排序策略,而PoseSOR的排序是由姿态方向驱动的,具有更强的解释性
- 这篇工作启发了"行为意图引导的视觉理解"这一方向,可以作为人机交互、社会场景理解等任务的baseline
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将人体姿态引入SOR任务,观察独到
- 实验充分度: ⭐⭐⭐⭐ 在多个SOR基准上验证,有详细消融
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,故事讲得流畅
- 价值: ⭐⭐⭐⭐ 开辟了姿态引导注意力的新方向,对SOR领域有启发
相关论文¶
- [ECCV 2024] 3DSA: Multi-view 3D Human Pose Estimation With 3D Space Attention Mechanisms
- [ECCV 2024] WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation
- [ECCV 2024] Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding
- [ECCV 2024] RePOSE: 3D Human Pose Estimation via Spatio-Temporal Depth Relational Consistency
- [ECCV 2024] UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues