Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation¶

会议: CVPR 2026
arXiv: 2501.05264
代码: GitHub
领域: 人体理解 / 多模态学习
关键词: 3D pose estimation, modality imbalance, Shapley value, Fisher Information Matrix, multi-modal fusion

一句话总结¶

提出基于Shapley值的模态贡献评估+Fisher信息矩阵引导的自适应权重约束(AWC)正则化方法，解决RGB/LiDAR/mmWave/WiFi四模态融合中的模态不平衡问题，在MM-Fi数据集上MPJPE比naive fusion降低2.71mm，比最佳balancing方法降低约5mm，且不引入额外可学参数。

背景与动机¶

3D人体位姿估计中，RGB受遮挡和隐私限制，非侵入式传感器(LiDAR/mmWave/WiFi)可提供补充信息。但多模态端到端训练面临模态不平衡：强模态(RGB/LiDAR)主导梯度更新，抑制弱模态(mmWave/WiFi)的优化。现有平衡方法(G-Blending/OGM-GE/AGM)专为分类设计(依赖cross-entropy)，不适用于回归任务；且常引入辅助单模态头增加模型复杂度。此外，简单加更多模态不一定提升性能——4模态融合(53.87mm MPJPE)反而比RGB+LiDAR(52.93mm)差，证实模态竞争的真实存在。

核心问题¶

如何在不引入额外参数的前提下，实现多模态回归任务中的均衡优化？需要解决两个子问题：(1) 如何在回归任务中准确评估各模态贡献(分类的cross-entropy方案不适用)；(2) 如何自适应地调节各模态学习速率以实现平衡。

方法详解¶

整体框架¶

4个模态(RGB/LiDAR/mmWave/WiFi)分别通过专用编码器(VideoPose3D/Point Transformer/MetaFi++)提取特征 → 融合模块(concatenation/MLP/attention) → 位姿回归头输出3D关节坐标。两个核心组件：Shapley模块评估模态贡献 → AWC损失在学习窗口内正则化参数更新。

关键设计¶

Shapley值+Pearson相关的模态贡献评估: 传统Shapley值用cross-entropy作利润函数，适用于分类但不适用于回归。原因：弱模态在回归中产生近常值预测(标准差极低)，用MSE/MAE评估会错误地认为其"可靠"。创新点：用Pearson相关系数代替MSE作为Shapley利润函数——衡量预测值与GT关节坐标的线性相关性而非距离，不受预测幅度影响。实验验证：RGB和LiDAR一致获得高贡献分，mmWave/WiFi分数低且随训练下降。
AWC (Adaptive Weight Constraint) 正则化: 用K-Means将4个模态按Shapley分聚类为superior(ℳ_S)和inferior(ℳ_I)两组。对每个模态编码器施加参数偏移正则：L_AWC = Σ α_m · Σ_i FIM_ii · (θ_t - θ_0)²/2。FIM对角近似衡量参数重要性——强模态早期梯度大→FIM高→正则化更强(抑制过快学习)；弱模态FIM低→正则化弱(允许继续学)。α_S > α_I确保对强模态约束更大。
Learning Window: AWC仅在前K个epoch施加(K=20最优)，之后关闭。基于观察：模态相关的关键信息在训练早期获取，后期正则化反而干扰收敛。

损失函数 / 训练策略¶

L_total = L_MPJPE + L_AWC (前K个epoch) / L_MPJPE (后续epoch)。Adam优化器，lr=1e-3，每30epoch×0.1，batch=192，共50 epochs，2×RTX 3090。

实验关键数据¶

方法	Protocol 1 MPJPE↓	PA-MPJPE↓	Protocol 3 MPJPE↓
MM-Fi baseline	72.90	47.70	89.80
Concatenation	53.87	35.09	48.17
G-Blending	58.40	37.20	53.13
OGM-GE	55.51	35.92	51.68
Modality-level	53.24	34.81	53.98
Ours	51.16	34.46	47.55

单模态性能对比¶

模态	MPJPE	PA-MPJPE
RGB	63.61	35.75
LiDAR	66.95	45.70
mmWave	102.89	52.21
WiFi	166.92	97.39
RGB+LiDAR	52.93	34.96
全部4模态(baseline)	53.87	35.09

消融实验要点¶

4模态 < RGB+LiDAR: 证实模态竞争问题真实存在(多≠好)
α_S=20k, α_I=10k最优: 强模态需更强约束，弱模态也需适量约束(防止过拟合噪声)
α_I=0时性能下降: 完全不约束弱模态会导致其过拟合噪声信号
K=20最优: 太短(10)正则化不足，太长(25)过度干扰后期训练
Shapley计算开销极低: Concat/MLP融合策略下overhead<1%，Attention下<5.4%

亮点 / 我学到了什么¶

Pearson相关替代MSE做Shapley利润函数: 在回归任务中，预测值的"幅度"和"相关性"是不同维度——弱模态可能预测幅度稳定但无信息量，Pearson相关能正确识别这种情况
FIM自然编码模态强弱: 不需要额外设计模态评分机制，FIM对角项直接反映参数重要性，强模态参数的FIM值高→正则化自动更强。这是一种优雅的隐式平衡
"4模态不如2模态"的反直觉结果: 定量证明了多模态融合中modality competition是真实问题，不能简单堆叠模态
Learning window概念: 多模态平衡主要在训练早期关键，后期应该放开限制让模型自由收敛

局限性 / 可改进方向¶

仅在MM-Fi一个数据集上验证，泛化性有待检验
4模态中mmWave和WiFi的贡献非常有限(MPJPE>100)，是否值得融合存疑
K-Means将4模态分为2组的方式较粗糙，更多模态时(>=8)可能需要更细粒度的分组
Shapley值计算复杂度随模态数指数增长(2^n)，4模态还好，更多模态需近似
缺少与模态缺失场景(missing modality)的对比

与相关工作的对比¶

vs OGM-GE/AGM: 这些方法调制dominant模态的梯度方向或大小，但忽略弱模态的过拟合风险。AWC同时约束所有模态
vs MMPareto: 基于Pareto前沿优化多模态梯度，需要额外的单模态梯度计算。AWC不需要单模态头
vs G-Blending: 发现G-Blending在某些设置下反而比baseline差(Table 1, Concat Protocol 1: 58.40 vs 53.87)，说明分类导向的balancing方法不适合回归

与我的研究方向的关联¶

多模态融合中的模态平衡问题在VLM领域同样存在(视觉vs语言的dominance)
Shapley值+Pearson相关的评估框架可迁移到其他多模态回归任务
FIM-guided正则化的思路与continual learning中的EWC (Elastic Weight Consolidation)有相似处

评分¶

新颖性: ⭐⭐⭐⭐ Shapley+Pearson解决回归中的模态评估是新颖的，AWC设计有理论支撑
实验充分度: ⭐⭐⭐⭐ 3个Protocol、3种fusion策略、详细消融和超参分析，但只有MM-Fi一个数据集
写作质量: ⭐⭐⭐⭐ 动机清晰，观察(figure 3)有说服力，但自引较多
对我的价值: ⭐⭐⭐ 多模态平衡的方法论有借鉴价值，特别是FIM-guided正则化思路