Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement¶
日期: 2026-03-20
arXiv: 2506.00030
代码: 无
领域: 多模态VLM / LLM效率
关键词: modality imbalance, alternating training, equilibrium deviation, cross-modal memory, weak-to-strong
一句话总结¶
提出 Equilibrium Deviation Metric (EDM) 量化模态不平衡程度,理论证明弱→强优化顺序在交替训练中收敛界最紧,设计 EDM 引导的动态交替训练 + 跨模态记忆模块,在 CREMA-D 上 +3.36%、Kinetics-400 上 +3.51% SOTA,且在缺失模态条件下保持鲁棒。
研究背景与动机¶
-
领域现状: 多模态学习中,强模态(如图像)往往主导训练过程,导致弱模态(如音频)优化不充分——即"模态懒惰"问题。类似"木桶效应",最弱模态限制整体学习能力上限。
-
现有痛点: 联合训练同时更新所有模态,简单高效但忽视单模态表征发展;现有交替训练虽能增强单模态能力,但缺乏跨模态对齐机制和信息传递,无法充分利用互补性。
-
核心矛盾: 如何在交替训练中既保持单模态优势,又促进跨模态整合?更关键的是,交替训练中模态的更新顺序如何影响收敛?
-
切入角度: 用博弈论的 Shapley 值量化各模态的贡献度,定义偏离理想平衡状态的度量 EDM,然后证明弱→强的优化顺序收敛最快。
-
核心 idea: EDM 引导的弱→强动态交替训练 + 跨模态记忆传递。
方法详解¶
整体框架¶
输入多模态数据 → 各模态编码器独立提特征 → 每个 epoch 结束时用 EDM 评估模态贡献偏差 → 按弱→强排序决定下一 epoch 的更新顺序 → 弱模态先更新,其记忆通过跨模态对齐传递给强模态 → LSTM 风格的记忆模块跨 epoch 继承。
关键设计¶
-
Equilibrium Deviation Metric (EDM):
- 做什么:量化各模态贡献偏离理想平衡的程度
- 核心思路:\(\text{EDM} = \sum_{i=1}^n |\eta - \psi(\mathbf{M}^{(i)})|\),其中 \(\psi\) 是基于 Shapley 值的模态贡献度(计算所有模态子集组合的边际性能增益)
- 理论保证:证明在 EDM 排序下,弱→强更新序列的融合损失严格小于强→弱,即 \(\mathcal{L}_{\text{fusion}}^{w \to s} < \mathcal{L}_{\text{fusion}}^{s \to w}\)
-
跨模态对齐:
- 做什么:在交替训练的模态间传递有用信息
- 核心思路:对弱模态 \(\mathbf{X}^{(i)}\) 和强模态 \(\mathbf{X}^{(j)}\) 计算样本级相关矩阵,保留高相关样本对,通过矩阵乘得到对齐表征 \(\hat{\mathbf{X}}^{(j)} = \mathbf{X}^{(j)} \mathbf{C}^{(ij)}\)
- 设计动机:直接拼接/平均会混淆不同模态的信号,相关矩阵 + 阈值过滤确保只传递高置信度的跨模态关联
-
模态感知记忆模块:
- 做什么:跨模态对和跨 epoch 传递上下文信息
- 核心思路:LSTM 风格的门控机制——遗忘门保持模态特定记忆,输入门控制跨模态更新,输出门调节融合输出。记忆状态不仅在同 epoch 的模态对间流动,还跨 epoch 继承
- 设计动机:弱模态的信息经记忆过滤后传给强模态,实现"由弱及强"的渐进式融合
-
记忆引导推理:
- 推理时复用最后一个训练 epoch 的模态更新顺序(假设模态不平衡模式在后期已稳定)
- 按同样的弱→强序列传递记忆状态
实验关键数据¶
主实验¶
| 数据集 | 模态 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|
| CREMA-D | A+V | 81.28 | 77.92 | +3.36% |
| Kinetics-400 | A+V | 89.16 | 85.65 | +3.51% |
| FOOD-101 | V+T | 97.11 | 96.57 | +0.54% |
| UPMC-Food | V+T | 95.80 | - | - |
缺失模态鲁棒性¶
在模态随机缺失 30%/50%/70% 条件下,本方法性能下降幅度远小于联合训练方法,验证了交替训练对单模态能力的保持。
消融实验¶
| 配置 | CREMA-D Acc |
|---|---|
| 联合训练 (baseline) | ~77 |
| 交替-随机顺序 | ~78 |
| 交替-强→弱 | ~78.5 |
| 交替-弱→强 (EDM) | ~81.3 |
| w/o 记忆模块 | ~79 |
| w/o 跨模态对齐 | ~79.5 |
亮点与洞察¶
- 理论驱动的方法设计很扎实:从 EDM 定义出发,理论证明弱→强最优,然后设计对应框架——不是靠 ablation 找到最佳配置,而是先证明再验证
- LSTM 记忆跨 epoch 继承的设计使交替训练不再是断裂的:弱模态的信息通过记忆链路传递到强模态甚至下一个 epoch,实现了信息的连续积累
- 兼容 MLLM backbone: 不仅适用于传统编码器,也可与大语言模型结合
局限性 / 可改进方向¶
- Shapley 值计算需要枚举模态子集组合,模态数增多时计算量指数增长
- 实验主要是双模态(A+V 或 V+T),3+ 模态场景下弱→强排序的效果待验证
- 缺失模态实验是随机缺失,实际场景中缺失模式可能更结构化
- CREMA-D/Kinetics 规模相对有限,大规模预训练场景的适用性未验证
评分¶
- 新颖性: ⭐⭐⭐⭐ EDM + 弱→强交替训练的理论洞察有新意,但记忆模块设计偏传统
- 实验充分度: ⭐⭐⭐⭐ 4 个 benchmark + 缺失模态 + 消融,但数据集偏小
- 价值: ⭐⭐⭐⭐ 为模态不平衡问题提供了有理论保证的实用解决方案