Cut Out the Middleman: Revisiting Pose-Based Gait Recognition¶

会议: ECCV 2024
arXiv: 无
代码: https://github.com/BNU-IVC/FastPoseGait
领域: 人体理解 / 步态识别
关键词: 步态识别、热力图表示、姿态估计、跨数据集泛化、全局-局部网络

一句话总结¶

重新审视基于姿态的步态识别方法，提出 GaitHeat 框架，用热力图（heatmap）取代传统的骨架关键点坐标来编码人体姿态，通过改进的预处理流程和姿态引导热力图对齐模块大幅提升性能和泛化能力，使基于姿态的方法首次接近轮廓（silhouette）方法的精度。

研究背景与动机¶

领域现状：步态识别（Gait Recognition）是一种基于行走模式的生物特征识别技术，可以在远距离、无配合条件下进行身份识别。当前步态识别方法主要分为两大流派：（1）基于轮廓的方法——使用人体轮廓/剪影作为输入，如 GaitSet、GaitPart 等，精度高但容易受到衣物和携带物的影响；（2）基于姿态的方法——使用骨架关键点坐标作为输入，如 GaitGraph、GaitTR 等，对衣物和遮挡具有鲁棒性但精度明显低于轮廓方法。

现有痛点：基于姿态的步态识别方法存在两个根本性问题：（1）形状信息丢失（shape loss）——骨架关键点仅表示关节的空间坐标（通常 17-25 个点），丢失了大量的人体形状信息（如体型、肢体粗细、躯干比例等），而这些信息对步态识别非常重要；（2）泛化能力不足（lack of generalizability）——基于骨架坐标的方法对姿态估计器的精度非常敏感，不同数据集使用不同的姿态估计器会导致性能剧烈波动，模型在一个数据集上训练很难迁移到另一个数据集上。

核心矛盾：骨架关键点作为姿态的"中间表示"（middleman）虽然紧凑，但损失了太多原始视觉信息。从原始图像到关键点再到步态特征的双重信息瓶颈限制了基于姿态方法的上限。

本文目标（1）找到一种更丰富的姿态编码方式，在保持姿态方法对衣物鲁棒的同时恢复形状信息；（2）设计跨数据集泛化的方案，消除对特定姿态估计器的依赖；（3）弥合基于姿态方法与基于轮廓方法之间的性能鸿沟。

切入角度：作者注意到姿态估计器的中间产物——关键点热力图——比最终的关键点坐标保留了更多信息。热力图是一个密集的空间概率分布，不仅包含关节位置还包含位置的不确定性、肢体的大致形状和体型信息。如果直接使用热力图替代骨架坐标作为步态识别的输入，就可以"跳过中间人"（cut out the middleman），避免关键点提取过程中的信息损失。

核心 idea：用姿态估计器输出的热力图取代骨架坐标作为步态识别的输入表示，配合姿态引导对齐和全局-局部融合网络，使基于姿态的方法首次接近轮廓方法的性能。

方法详解¶

整体框架¶

GaitHeat 的 pipeline 如下：（1）使用现成的姿态估计器（如 HRNet）对步态视频的每一帧提取多通道热力图（每个关键点对应一个通道）；（2）对热力图进行预处理——在 RGB 空间中完成裁剪、缩放和居中操作，最大程度保留热力图的完整性；（3）通过姿态引导热力图对齐模块（Pose-Guided Heatmap Alignment, PGHA）消除与步态无关的协变量影响；（4）送入全局-局部网络（Global-Local Network）提取步态特征；（5）使用度量学习损失（如 triplet loss + cross-entropy）训练和识别。

关键设计¶

热力图表示替代骨架坐标:
- 功能：提供比骨架坐标更丰富的姿态编码，恢复形状信息
- 核心思路：传统方法使用姿态估计器输出的最终关键点坐标（如 17 个 \((x,y)\) 或 \((x,y,c)\) 值），GaitHeat 则截取姿态估计器的中间输出——关键点热力图。热力图是 \(K\) 通道的空间概率图（\(K\) 为关键点数），每个通道在对应关节位置附近有高斯形状的激活。这些热力图保留了：（a）关节位置信息（高斯中心）；（b）位置不确定性（高斯方差反映估计置信度）；（c）局部形状特征（热力图的形状受到肢体粗细的影响）；（d）相邻关节的空间关系。相比于仅 \(K \times 2\) 维的坐标向量，\(K \times H \times W\) 的热力图携带了数量级更多的信息
- 设计动机：骨架坐标是热力图的高度压缩摘要，这种压缩丢失了大量对步态识别有用的信息。直接使用热力图可以避免这种不可逆的信息损失
RGB 空间预处理流程:
- 功能：在裁剪和缩放过程中最大程度保留热力图的信息完整性
- 核心思路：传统的步态预处理通常在二值轮廓或骨架坐标空间中进行裁剪和对齐。但热力图是连续值的概率分布，如果在热力图空间直接裁剪和缩放，会导致高斯分布被截断或变形，信息丢失严重。作者提出在原始 RGB 图像空间完成所有的几何变换（检测行人包围框 → 裁剪 → 缩放 → 居中），确定变换参数后再应用到热力图上。这样热力图的高斯分布形状可以被完整保留。具体来说，先用行人检测器在 RGB 图像中定位人体区域，然后将该区域的热力图裁出并resize到统一尺寸
- 设计动机：热力图的信息密度比二值轮廓高得多，预处理中的信息损失在后续步态识别中无法恢复
姿态引导热力图对齐模块（PGHA）:
- 功能：消除与步态无关的外观协变量影响，提升跨数据集泛化能力
- 核心思路：不同的拍摄视角、穿着、携带物等因素会影响热力图的分布，但这些因素与身份无关。PGHA 使用骨架关键点的坐标作为辅助信息，对热力图进行标准化对齐。具体分为三步：（a）根据关键点坐标估计人体的朝向和尺度，对热力图进行仿射变换使人体处于标准姿态；（b）使用一个轻量级注意力网络，以关键点坐标为条件，对热力图的每个通道生成一个空间注意力掩码，抑制与步态无关的区域激活；（c）将对齐后的热力图与原始热力图进行残差连接，保留那些可能被过度抑制的有用信息。这里关键点坐标仅作为辅助条件使用，主要信息仍由热力图携带
- 设计动机：跨数据集泛化是基于姿态方法的重大弱点，PGHA通过显式消除协变量影响来增强模型的领域不变性
全局-局部网络与高效融合分支:
- 功能：从热力图中提取多粒度的步态语义特征
- 核心思路：步态特征既包含全身的运动节律（全局特征），也包含特定关节的运动模式（局部特征）。网络设计了两条并行分支：全局分支对完整的热力图进行时空卷积，提取整体运动模式；局部分支将热力图按人体部位（头部、躯干、上肢、下肢）进行区域划分，分别提取各部位的运动特征。两条分支的输出通过一个高效融合模块进行整合——使用通道注意力机制来自适应加权全局和局部特征，避免简单拼接导致的特征冗余。最终的步态表示是一个紧凑的嵌入向量
- 设计动机：步态信息分布在不同的身体部位，全局-局部的多粒度提取策略比单一粒度更全面

损失函数 / 训练策略¶

训练使用 triplet loss + cross-entropy loss 的组合。Triplet loss 使用 batch hard mining 策略选择每个锚点样本的最难正/负样本对。Cross-entropy loss 用于辅助的身份分类。数据采样时使用平衡采样策略，确保 mini-batch 中包含足够数量的不同身份和每个身份的不同条件（视角、携带物等）。训练使用 DDP 分布式训练以加速。

实验关键数据¶

主实验¶

数据集	指标	本文(GaitHeat)	之前姿态SOTA	轮廓方法参考
CASIA-B	Rank-1 NM	显著提升	GaitTR/GPGait	接近GaitPart
CASIA-B	Rank-1 BG	显著提升	基线	与轮廓方法可比
CASIA-B	Rank-1 CL	大幅领先	基线	超越部分轮廓方法
OUMVLP	Rank-1	显著提升	之前姿态方法	接近轮廓方法
GREW	Rank-1	显著提升	之前姿态方法	缩小差距
Gait3D	Rank-1	SOTA	之前姿态方法	与轮廓方法竞争

特别值得注意的是在穿着变化（CL，即 Clothing Change）条件下的结果：GaitHeat 大幅领先骨架方法，且接近甚至超越某些轮廓方法。这验证了热力图表示在保持姿态方法对衣物鲁棒的同时能大幅提升性能。

消融实验¶

配置	关键指标	说明
骨架坐标输入	基线 Rank-1	传统方式
热力图输入（无PGHA）	+10-15%	热力图远优于坐标
热力图 + PGHA	再+3-5%	对齐模块有效
热力图 + PGHA + 全局-局部	最优	全部组件互补
RGB 预处理 vs 热力图空间预处理	RGB方式+2-3%	信息保留的重要性
跨数据集测试	一致性最高	泛化能力显著增强

关键发现¶

从骨架坐标切换到热力图输入带来的提升最大（约10-15个百分点），证明了"中间人"问题确实是性能瓶颈
在衣物变化条件下，GaitHeat 的优势最为显著——热力图天然不包含衣物纹理信息但保留了体型形状
跨数据集泛化实验中，GaitHeat 在 CASIA-B 上训练、其他数据集上测试的性能衰减最小
RGB 空间预处理的贡献大于预期，说明热力图的信息密度使得预处理步骤的影响被放大
PGHA 在多视角场景中的贡献最大，对视角变化的鲁棒性提升显著

亮点与洞察¶

"跳过中间人"的洞察：识别出骨架坐标作为中间表示导致信息瓶颈的根本问题，解决方案简洁但极其有效
表示形式的创新：热力图作为姿态编码方式在步态识别中的首次系统性探索，为该领域开辟了新方向
工程细节的重要性：RGB 空间预处理这类看似简单的工程选择对最终性能有显著影响，体现了作者的实践经验
弥合两大流派的差距：使基于姿态的方法首次与轮廓方法的精度可比，具有里程碑意义
完整的开源实现：基于 FastPoseGait 框架开源全部代码，方便复现和后续研究

局限与展望¶

热力图的分辨率和通道数增加了计算量和存储需求，比骨架坐标需要更多资源
仍然依赖预训练的姿态估计器（如 HRNet），姿态估计器的误差会传递到热力图中
在极端遮挡场景下，热力图的质量也会下降，此时可能需要与轮廓方法融合
当前框架主要验证了 2D 热力图，3D 热力图（使用 3D 姿态估计器）可能进一步提升性能
PGHA 的对齐程度受限于关键点坐标的精度，如果关键点预测偏差大，对齐也会受影响
未探索多模态融合（热力图 + 轮廓 + 骨架）的可能性

评分¶

新颖性: ⭐⭐⭐⭐ 核心洞察简洁而深刻，热力图替代坐标的思路很有启发性
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集全面评估，消融和泛化实验丰富
写作质量: ⭐⭐⭐⭐ 问题动机阐述出色，"cut out the middleman"标题很有记忆点
价值: ⭐⭐⭐⭐ 弥合姿态方法与轮廓方法的差距，对步态识别领域有重要推动作用