跳转至

KHMP: Frequency-Domain Kalman Refinement for High-Fidelity Human Motion Prediction

日期: 2026-03-22
arXiv: 2603.21327
代码: GitHub
领域: 图像生成
关键词: human motion prediction, Kalman filter, DCT, frequency domain, biomechanical constraints

一句话总结

提出 KHMP,在频率域(DCT)上用 Kalman 滤波抑制运动预测的高频抖动——训练时加入时序平滑和关节角度约束,推理时用 SNR 自适应 Kalman 滤波器精炼高频 DCT 系数,在保持运动多样性的同时显著改善物理合理性。

研究背景与动机

  1. 领域现状: 随机运动预测模型(基于 VAE/Diffusion)可以生成多样化输出,但牺牲了质量——输出常有高频抖动和时序不连续。

  2. 现有痛点: (a) 逐帧 loss 不包含生物力学约束,导致解剖学上不可能的姿态;(b) 时序不一致导致关节"闪烁";(c) 简单的频率截断会丢失有效高频信息(如快速运动细节)。

  3. 核心矛盾: 多样性和物理合理性之间的 trade-off——强约束抑制多样性,弱约束保不住质量。

  4. 核心 idea: 将高频抖动视为结构化噪声,用 Kalman 滤波在 DCT 频率域做最优递归滤波——同时训练时加入物理约束提供"良好初始化",推理时做精炼。

方法详解

整体框架

VAE 基座模型训练(加入物理约束 loss)→ 推理时预测输出 → DCT 变换到频率域 → 低频保留、高频 Kalman 滤波 → IDCT 重建时域输出。

关键设计

  1. 训练时物理约束:

    • 时序平滑 loss: \(\mathcal{L}_{temp} = \frac{1}{T'-1}\sum||\hat{Y}_t - \hat{Y}_{t-1}||^2_2\),惩罚帧间姿态跳变
    • 关节角度约束: 用 \(\cos(\theta_{t,j})\) 代替 \(\arccos\)(避免梯度不稳定),超出生理范围时施加二次惩罚
    • 两个约束从不同维度约束输出质量,为推理时滤波提供更好的"原料"
  2. 频率域 Kalman 滤波:

    • 将预测序列 DCT 变换,将相邻 DCT 系数 \(c_k\) 建模为一阶高斯-马尔可夫过程
    • 低频(\(k < k_0\))直接保留——包含运动主体结构
    • 高频(\(k \geq k_0\))做 Kalman 递归滤波: 预测 → 更新 → 用 Kalman 增益 \(K_k\) 加权
    • 关键在于在频率索引 \(k\) 上递归(而非时间轴),利用频率域平滑特性
  3. SNR 自适应参数化:

    • 估计信噪比: \(SNR_{est} = (1-\rho)/(\rho + \epsilon)\)\(\rho\) 为高频能量占比
    • 高 SNR(干净信号)→ 保守滤波(小 \(Q\)、大 \(R\)
    • 低 SNR(抖动严重)→ 激进滤波(大 \(Q\)、小 \(R\)
    • 不同样本自适应调节,无需固定参数

实验关键数据

主实验

方法 Human3.6M ADE FDE MMADE MMFDE
DivSamp baseline baseline
GSPS
KHMP SOTA SOTA SOTA SOTA

消融实验

配置 效果 说明
Full (训练约束 + 频率Kalman) 最优 两阶段互补
w/o 物理约束 下降 原始输出噪声大,滤波效果有限
w/o 频率 Kalman 下降 仅训练约束不够精细
固定 Kalman 参数 下降 不适应样本质量差异
时域滤波 vs DCT 域 DCT 显著更优 频率域分离更干净

关键发现

  • 训练和推理两阶段缺一不可——前者提供好的初始化,后者做精细修正
  • DCT 域显著优于时域滤波,因为抖动在频率域更容易分离
  • SNR 自适应关键——固定参数对质量差异大的样本效果不一致
  • 多样性(APD)保持不变,说明滤波没有导致模式坍缩

亮点与洞察

  • 信号处理 × 深度学习的优雅融合: Kalman 滤波在 DCT 域的应用有理论支撑且实用
  • \(\cos\) 替代 \(\arccos\) 做角度约束避免梯度问题,trick 简洁有效
  • SNR 自适应 比固定参数显著更好——承认不同样本的噪声程度不同,针对性处理

局限性 / 可改进方向

  • 仅在 VAE 架构上验证,对 Diffusion-based 方法是否同样有效未知
  • 超参数(\(Q_0, R_0, \lambda_Q, \lambda_R, k_0\))对结果敏感,需要按骨架/数据集调节
  • 仅在特定人体骨架配置上评估

相关工作与启发

  • vs DivSamp/GSPS (基于 VAE): 相同基座但无物理约束;KHMP 增加训练时平滑+推理时滤波
  • vs 硬频率截断: 简单截断丢失有效高频细节;Kalman 滤波智能保留信号去除噪声
  • vs 时域平滑: DCT 域显著优于时域——抢动在频域分离更干净

评分

  • 新颖性: ⭐⭐⭐⭐ 频率域 Kalman 滤波用于运动预测是新颖组合
  • 实验充分度: ⭐⭐⭐⭐ 多指标+详细消融+多样性保持验证
  • 写作质量: ⭐⭐⭐⭐ 信号处理 + 深度学习跨领域论述清晰
  • 价值: ⭐⭐⭐⭐ 训推双阶段策略可推广到其他序列生成任务