On Denoising Walking Videos for Gait Recognition¶

会议: CVPR 2025
arXiv: 2505.18582
代码: https://github.com/ShiqiYu/OpenGait
领域: 3D视觉
关键词: 步态识别, 扩散模型, 特征去噪, 光流场, 衣物变化鲁棒性

一句话总结¶

提出 DenoisingGait，结合"知识驱动去噪"（利用生成式扩散模型在特定 timestep 下滤除步态无关信息）和"几何驱动去噪"（Feature Matching 模块将多通道扩散特征压缩为二维方向向量），生成全新的 Gait Feature Field 表示，在多个 RGB 步态数据集上取得 SOTA。

研究背景与动机¶

领域现状：步态识别是一种非侵入式生物特征识别方法，通过行走视频中的体型和肢体运动来识别身份。现有方法主要分为"硬去噪"（使用轮廓、骨架、SMPL 等预定义表示来去除背景和纹理干扰）和"软去噪"（直接在 RGB 视频上使用人体先验抑制非步态信息）。

现有痛点：硬去噪方法（轮廓、骨架等）的输入稀疏且信息量少，丢失了许多有利于身份识别的结构细节；软去噪方法虽然保留了更多信息，但仍然难以完全去除衣物纹理和颜色等步态无关因素。特别是在换装场景下，RGB 编码的纹理和颜色信息成为识别的主要噪声源。

核心矛盾：步态识别需要提取"对衣物和背景不变、但对体型和动作敏感"的特征，而 RGB 图像天然编码了大量身份无关的视觉信息。如何在保留结构信息的同时去除这些"噪声"是核心挑战。

本文目标：设计一个兼具知识驱动和几何驱动的去噪框架，从 RGB 视频中提取纯净的步态表示。

切入角度：受"what I cannot create, I do not understand"启发，探索生成式扩散模型作为步态表示学习器的潜力。发现通过控制扩散模型的 timestep \(t\)，可以选择性地滤除不同粒度的 RGB 细节——较大 \(t\) 保留整体形状，较小 \(t\) 重建精细纹理。在 \(t=700\) 时步态识别效果最佳（CCPG 上提升 5.3%），但仍有残留的 RGB 噪声，需要进一步的几何驱动去噪。

核心 idea：用扩散模型做粗去噪（selectively filter RGB details），再用 Feature Matching 模块做精去噪（compress to direction vectors），生成类似光流的 Gait Feature Field 作为最终表示。

方法详解¶

整体框架¶

DenoisingGait 的 pipeline：(1) 输入 RGB 帧经 VAE 编码器投影到潜空间，用预训练 Stable Diffusion 在 timestep \(t\) 做一步去噪得到扩散特征 \(F_l\)；(2) Feature Matching 模块将 \(F_l\) 通过帧内匹配（\(\Delta l=0\)）和帧间匹配（\(\Delta l>0\)）分别生成静态和动态 Gait Feature Field；(3) 两个 Feature Field 并行送入 GaitBase 进行步态识别，用 triplet loss + cross-entropy loss 训练。

关键设计¶

知识驱动去噪（Diffusion-based Denoising）:
- 功能：利用预训练扩散模型将 RGB 图像中的步态无关细节滤除
- 核心思路：给定帧 \(I_l\)，先用 VAE 编码器得到潜变量 \(z = \mathcal{E}(I_l)\)，然后用预训练 SD 1.5 的 UNet \(\epsilon_\theta\) 在不加随机噪声的情况下做一步去噪：\(F_l = \epsilon_\theta(\mathcal{E}(I_l), t)\)。关键在于 timestep \(t\) 的选择：\(t\) 过大则过度模糊丢失结构，\(t\) 过小则保留过多纹理细节。实验找到 \(t=700\) 为最优。
- 设计动机：扩散模型在不同 timestep 捕获不同粒度的信息——早期 timestep 对应整体形状，后期对应精细纹理。步态识别需要的恰好是中等粒度的形状信息。这种"用生成模型做判别任务"的思路很有创意。
几何驱动去噪（Feature Matching + Gait Feature Field）:
- 功能：将多通道扩散特征压缩为二维方向向量，进一步去除 RGB 编码的噪声
- 核心思路：对于查询像素 \(\langle i,j \rangle\) 的特征 \(f^Q_{\langle i,j \rangle}\)，在邻域中搜索键特征 \(\mathcal{M}^K_{\langle i,j \rangle}\)，计算 Softmax 相似度分布 \(\mathcal{P}\)，然后用固定的方向模板 \(\mathcal{T}\)（包含各邻居相对位移 \([\hat{i}, \hat{j}]\)）加权求和得到方向向量 \(G_{\langle i,j \rangle} = \mathcal{P} \cdot \mathcal{T}\)。帧内匹配（\(\Delta l=0\)）得到静态 Gait Feature Field（类似 SIFT 梯度场），帧间匹配（\(\Delta l>0\)）得到动态 Gait Feature Field（类似光流场）。背景通过轮廓 mask 去除。
- 设计动机：从多通道特征到二维方向向量的压缩天然过滤了 RGB 编码的高维纹理信息，只保留局部结构和运动的方向性特征。灵感来自 SIFT 描述子和光流估计，但完全是端到端可学习的。
纹理抑制操作（Texture Suppression）:
- 功能：在训练时随机屏蔽高纹理区域，鼓励模型学习纹理不变的步态特征
- 核心思路：发现静态 Gait Feature Field 中方向向量的大小 \(\|G^{\text{Static}}_{\langle i,j \rangle}\|_2\) 能反映纹理强度。训练时以概率 \(p\) 将大于阈值 \(m=0.5\) 的像素置零，促使模型不依赖纹理信息做识别。
- 设计动机：换装场景下纹理信息是最大干扰源。这个操作相当于告诉模型"纹理是不可靠的"，迫使其聚焦于体型和动作等稳定特征。

损失函数 / 训练策略¶

使用 triplet loss + cross-entropy loss 的标准组合训练 GaitBase
SGD 优化器，初始学习率 0.1，权重衰减 0.0005
采用有序采样策略，每个训练步骤处理 20 帧
CCPG 数据集上训练 60k 步，batch size (8, 4)

实验关键数据¶

主实验¶

方法	输入	CCPG-CL (换装)	CCPG-Mean	协议
GaitBase	Sils	71.6	75.5	Gait
DeepGaitV2	Sils	78.6	83.3	Gait
BigGait	RGB	82.6	87.2	Gait
SkeletonGait++	Sils+Skeleton	79.1	83.7	Gait
MultiGait++	Sils+Parsing+Flow	83.9	87.6	Gait
DenoisingGait	RGB+Sils	84.0	89.5	Gait
DenoisingGait	RGB+Sils	91.8	95.7	ReID

消融实验¶

配置	CCPG-CL	说明
扩散基线 (无 ϵθ)	~78.7	仅 VAE 编码+GaitBase
扩散基线 (t=700)	~84.0	加入扩散去噪，+5.3%
+ Feature Matching (静态)	提升	加入几何驱动去噪
+ Feature Matching (动态)	进一步提升	加入运动场信息
+ Texture Suppression	最终	纹理抑制进一步增强鲁棒性

关键发现¶

timestep \(t\) 的选择至关重要：\(t=700\) 是 CCPG 上的最优点，过大过小都会降低性能，验证了扩散模型的多粒度特性
静态 Gait Feature Field 自动避开纹理丰富区域（如衣服图案），聚焦于身体轮廓和关节结构
动态 Gait Feature Field 的激活焦点集中在运动的肢体部位，与步态的运动学特征高度一致
跨域评估（在一个数据集训练，另一个测试）同样表现出色，说明扩散特征的泛化能力强

亮点与洞察¶

扩散模型 timestep 的语义含义应用于判别任务：发现 timestep 可以作为"信息粒度控制器"，这个洞察可以迁移到其他需要多粒度特征的判别任务（如行人重识别、细粒度分类）
Gait Feature Field 的设计：将多通道特征压缩为二维方向向量的思路既优雅又有效——它天然过滤了高维的纹理信息，只保留了结构和运动的方向性信息。这个 Feature Matching 模块可以作为通用的特征去噪工具
纹理强度与方向向量大小的关联发现：\(\|G^{\text{Static}}\|_2\) 能反映纹理强度，这个发现为设计纹理抑制操作提供了自然的度量

局限与展望¶

依赖预训练 SD 1.5 模型做特征提取，推理计算量较大（每帧需要一次扩散前向），不适合实时场景
timestep \(t=700\) 是在 CCPG 上调参得到的，换到其他数据集可能需要重新寻找
仅测试了上半身换装场景，对于更极端的外观变化（如雨衣、头盔等）的鲁棒性有待验证
轮廓 mask 的准确性会影响背景去除效果，在遮挡严重时可能降低性能

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将扩散模型用于步态识别，Gait Feature Field 表示新颖
实验充分度: ⭐⭐⭐⭐ 三个数据集、跨域评估、充分的消融和可视化分析
写作质量: ⭐⭐⭐⭐ 动机清晰，从扩散模型到 Feature Matching 的推导流畅
价值: ⭐⭐⭐⭐ 为步态识别提供了全新范式，扩散特征的多粒度控制思路有广泛启发