跳转至

Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement

日期: 2026-03-20
arXiv: 2506.00030
代码: 无
领域: 多模态VLM / LLM效率
关键词: modality imbalance, alternating training, equilibrium deviation, cross-modal memory, weak-to-strong

一句话总结

提出 Equilibrium Deviation Metric (EDM) 量化模态不平衡程度,理论证明弱→强优化顺序在交替训练中收敛界最紧,设计 EDM 引导的动态交替训练 + 跨模态记忆模块,在 CREMA-D 上 +3.36%、Kinetics-400 上 +3.51% SOTA,且在缺失模态条件下保持鲁棒。

研究背景与动机

  1. 领域现状: 多模态学习中,强模态(如图像)往往主导训练过程,导致弱模态(如音频)优化不充分——即"模态懒惰"问题。类似"木桶效应",最弱模态限制整体学习能力上限。

  2. 现有痛点: 联合训练同时更新所有模态,简单高效但忽视单模态表征发展;现有交替训练虽能增强单模态能力,但缺乏跨模态对齐机制和信息传递,无法充分利用互补性。

  3. 核心矛盾: 如何在交替训练中既保持单模态优势,又促进跨模态整合?更关键的是,交替训练中模态的更新顺序如何影响收敛?

  4. 切入角度: 用博弈论的 Shapley 值量化各模态的贡献度,定义偏离理想平衡状态的度量 EDM,然后证明弱→强的优化顺序收敛最快。

  5. 核心 idea: EDM 引导的弱→强动态交替训练 + 跨模态记忆传递。

方法详解

整体框架

输入多模态数据 → 各模态编码器独立提特征 → 每个 epoch 结束时用 EDM 评估模态贡献偏差 → 按弱→强排序决定下一 epoch 的更新顺序 → 弱模态先更新,其记忆通过跨模态对齐传递给强模态 → LSTM 风格的记忆模块跨 epoch 继承。

关键设计

  1. Equilibrium Deviation Metric (EDM):

    • 做什么:量化各模态贡献偏离理想平衡的程度
    • 核心思路:\(\text{EDM} = \sum_{i=1}^n |\eta - \psi(\mathbf{M}^{(i)})|\),其中 \(\psi\) 是基于 Shapley 值的模态贡献度(计算所有模态子集组合的边际性能增益)
    • 理论保证:证明在 EDM 排序下,弱→强更新序列的融合损失严格小于强→弱,即 \(\mathcal{L}_{\text{fusion}}^{w \to s} < \mathcal{L}_{\text{fusion}}^{s \to w}\)
  2. 跨模态对齐:

    • 做什么:在交替训练的模态间传递有用信息
    • 核心思路:对弱模态 \(\mathbf{X}^{(i)}\) 和强模态 \(\mathbf{X}^{(j)}\) 计算样本级相关矩阵,保留高相关样本对,通过矩阵乘得到对齐表征 \(\hat{\mathbf{X}}^{(j)} = \mathbf{X}^{(j)} \mathbf{C}^{(ij)}\)
    • 设计动机:直接拼接/平均会混淆不同模态的信号,相关矩阵 + 阈值过滤确保只传递高置信度的跨模态关联
  3. 模态感知记忆模块:

    • 做什么:跨模态对和跨 epoch 传递上下文信息
    • 核心思路:LSTM 风格的门控机制——遗忘门保持模态特定记忆,输入门控制跨模态更新,输出门调节融合输出。记忆状态不仅在同 epoch 的模态对间流动,还跨 epoch 继承
    • 设计动机:弱模态的信息经记忆过滤后传给强模态,实现"由弱及强"的渐进式融合
  4. 记忆引导推理:

    • 推理时复用最后一个训练 epoch 的模态更新顺序(假设模态不平衡模式在后期已稳定)
    • 按同样的弱→强序列传递记忆状态

实验关键数据

主实验

数据集 模态 本文 之前SOTA 提升
CREMA-D A+V 81.28 77.92 +3.36%
Kinetics-400 A+V 89.16 85.65 +3.51%
FOOD-101 V+T 97.11 96.57 +0.54%
UPMC-Food V+T 95.80 - -

缺失模态鲁棒性

在模态随机缺失 30%/50%/70% 条件下,本方法性能下降幅度远小于联合训练方法,验证了交替训练对单模态能力的保持。

消融实验

配置 CREMA-D Acc
联合训练 (baseline) ~77
交替-随机顺序 ~78
交替-强→弱 ~78.5
交替-弱→强 (EDM) ~81.3
w/o 记忆模块 ~79
w/o 跨模态对齐 ~79.5

亮点与洞察

  • 理论驱动的方法设计很扎实:从 EDM 定义出发,理论证明弱→强最优,然后设计对应框架——不是靠 ablation 找到最佳配置,而是先证明再验证
  • LSTM 记忆跨 epoch 继承的设计使交替训练不再是断裂的:弱模态的信息通过记忆链路传递到强模态甚至下一个 epoch,实现了信息的连续积累
  • 兼容 MLLM backbone: 不仅适用于传统编码器,也可与大语言模型结合

局限性 / 可改进方向

  • Shapley 值计算需要枚举模态子集组合,模态数增多时计算量指数增长
  • 实验主要是双模态(A+V 或 V+T),3+ 模态场景下弱→强排序的效果待验证
  • 缺失模态实验是随机缺失,实际场景中缺失模式可能更结构化
  • CREMA-D/Kinetics 规模相对有限,大规模预训练场景的适用性未验证

评分

  • 新颖性: ⭐⭐⭐⭐ EDM + 弱→强交替训练的理论洞察有新意,但记忆模块设计偏传统
  • 实验充分度: ⭐⭐⭐⭐ 4 个 benchmark + 缺失模态 + 消融,但数据集偏小
  • 价值: ⭐⭐⭐⭐ 为模态不平衡问题提供了有理论保证的实用解决方案