KHMP: Frequency-Domain Kalman Refinement for High-Fidelity Human Motion Prediction¶

日期: 2026-03-22
arXiv: 2603.21327
代码: GitHub
领域: 图像生成
关键词: human motion prediction, Kalman filter, DCT, frequency domain, biomechanical constraints

一句话总结¶

提出 KHMP，在频率域（DCT）上用 Kalman 滤波抑制运动预测的高频抖动——训练时加入时序平滑和关节角度约束，推理时用 SNR 自适应 Kalman 滤波器精炼高频 DCT 系数，在保持运动多样性的同时显著改善物理合理性。

研究背景与动机¶

领域现状: 随机运动预测模型（基于 VAE/Diffusion）可以生成多样化输出，但牺牲了质量——输出常有高频抖动和时序不连续。
现有痛点: (a) 逐帧 loss 不包含生物力学约束，导致解剖学上不可能的姿态；(b) 时序不一致导致关节"闪烁"；(c) 简单的频率截断会丢失有效高频信息（如快速运动细节）。
核心矛盾: 多样性和物理合理性之间的 trade-off——强约束抑制多样性，弱约束保不住质量。
核心 idea: 将高频抖动视为结构化噪声，用 Kalman 滤波在 DCT 频率域做最优递归滤波——同时训练时加入物理约束提供"良好初始化"，推理时做精炼。

方法详解¶

整体框架¶

VAE 基座模型训练（加入物理约束 loss）→ 推理时预测输出 → DCT 变换到频率域 → 低频保留、高频 Kalman 滤波 → IDCT 重建时域输出。

关键设计¶

训练时物理约束:
- 时序平滑 loss: \(\mathcal{L}_{temp} = \frac{1}{T'-1}\sum||\hat{Y}_t - \hat{Y}_{t-1}||^2_2\)，惩罚帧间姿态跳变
- 关节角度约束: 用 \(\cos(\theta_{t,j})\) 代替 \(\arccos\)（避免梯度不稳定），超出生理范围时施加二次惩罚
- 两个约束从不同维度约束输出质量，为推理时滤波提供更好的"原料"
频率域 Kalman 滤波:
- 将预测序列 DCT 变换，将相邻 DCT 系数 \(c_k\) 建模为一阶高斯-马尔可夫过程
- 低频（\(k < k_0\)）直接保留——包含运动主体结构
- 高频（\(k \geq k_0\)）做 Kalman 递归滤波: 预测 → 更新 → 用 Kalman 增益 \(K_k\) 加权
- 关键在于在频率索引 \(k\) 上递归（而非时间轴），利用频率域平滑特性
SNR 自适应参数化:
- 估计信噪比: \(SNR_{est} = (1-\rho)/(\rho + \epsilon)\)，\(\rho\) 为高频能量占比
- 高 SNR（干净信号）→ 保守滤波（小 \(Q\)、大 \(R\)）
- 低 SNR（抖动严重）→ 激进滤波（大 \(Q\)、小 \(R\)）
- 不同样本自适应调节，无需固定参数

实验关键数据¶

主实验¶

方法	Human3.6M ADE	FDE	MMADE	MMFDE
DivSamp	baseline	baseline	—	—
GSPS	—	—	—	—
KHMP	SOTA	SOTA	SOTA	SOTA

消融实验¶

配置	效果	说明
Full (训练约束 + 频率Kalman)	最优	两阶段互补
w/o 物理约束	下降	原始输出噪声大，滤波效果有限
w/o 频率 Kalman	下降	仅训练约束不够精细
固定 Kalman 参数	下降	不适应样本质量差异
时域滤波 vs DCT 域	DCT 显著更优	频率域分离更干净

关键发现¶

训练和推理两阶段缺一不可——前者提供好的初始化，后者做精细修正
DCT 域显著优于时域滤波，因为抖动在频率域更容易分离
SNR 自适应关键——固定参数对质量差异大的样本效果不一致
多样性（APD）保持不变，说明滤波没有导致模式坍缩

亮点与洞察¶

信号处理 × 深度学习的优雅融合: Kalman 滤波在 DCT 域的应用有理论支撑且实用
\(\cos\) 替代 \(\arccos\) 做角度约束避免梯度问题，trick 简洁有效
SNR 自适应 比固定参数显著更好——承认不同样本的噪声程度不同，针对性处理

局限性 / 可改进方向¶

仅在 VAE 架构上验证，对 Diffusion-based 方法是否同样有效未知
超参数（\(Q_0, R_0, \lambda_Q, \lambda_R, k_0\)）对结果敏感，需要按骨架/数据集调节
仅在特定人体骨架配置上评估

评分¶

新颖性: ⭐⭐⭐⭐ 频率域 Kalman 滤波用于运动预测是新颖组合
实验充分度: ⭐⭐⭐⭐ 多指标+详细消融+多样性保持验证
写作质量: ⭐⭐⭐⭐ 信号处理 + 深度学习跨领域论述清晰
价值: ⭐⭐⭐⭐ 训推双阶段策略可推广到其他序列生成任务