Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement¶

日期: 2026-03-20
arXiv: 2506.00030
代码: 无
领域: 多模态VLM / LLM效率
关键词: modality imbalance, alternating training, equilibrium deviation, cross-modal memory, weak-to-strong

一句话总结¶

提出 Equilibrium Deviation Metric (EDM) 量化模态不平衡程度，理论证明弱→强优化顺序在交替训练中收敛界最紧，设计 EDM 引导的动态交替训练 + 跨模态记忆模块，在 CREMA-D 上 +3.36%、Kinetics-400 上 +3.51% SOTA，且在缺失模态条件下保持鲁棒。

研究背景与动机¶

领域现状: 多模态学习中，强模态（如图像）往往主导训练过程，导致弱模态（如音频）优化不充分——即"模态懒惰"问题。类似"木桶效应"，最弱模态限制整体学习能力上限。
现有痛点: 联合训练同时更新所有模态，简单高效但忽视单模态表征发展；现有交替训练虽能增强单模态能力，但缺乏跨模态对齐机制和信息传递，无法充分利用互补性。
核心矛盾: 如何在交替训练中既保持单模态优势，又促进跨模态整合？更关键的是，交替训练中模态的更新顺序如何影响收敛？
切入角度: 用博弈论的 Shapley 值量化各模态的贡献度，定义偏离理想平衡状态的度量 EDM，然后证明弱→强的优化顺序收敛最快。
核心 idea: EDM 引导的弱→强动态交替训练 + 跨模态记忆传递。

方法详解¶

整体框架¶

输入多模态数据 → 各模态编码器独立提特征 → 每个 epoch 结束时用 EDM 评估模态贡献偏差 → 按弱→强排序决定下一 epoch 的更新顺序 → 弱模态先更新，其记忆通过跨模态对齐传递给强模态 → LSTM 风格的记忆模块跨 epoch 继承。

关键设计¶

Equilibrium Deviation Metric (EDM):
- 做什么：量化各模态贡献偏离理想平衡的程度
- 核心思路：\(\text{EDM} = \sum_{i=1}^n |\eta - \psi(\mathbf{M}^{(i)})|\)，其中 \(\psi\) 是基于 Shapley 值的模态贡献度（计算所有模态子集组合的边际性能增益）
- 理论保证：证明在 EDM 排序下，弱→强更新序列的融合损失严格小于强→弱，即 \(\mathcal{L}_{\text{fusion}}^{w \to s} < \mathcal{L}_{\text{fusion}}^{s \to w}\)
跨模态对齐:
- 做什么：在交替训练的模态间传递有用信息
- 核心思路：对弱模态 \(\mathbf{X}^{(i)}\) 和强模态 \(\mathbf{X}^{(j)}\) 计算样本级相关矩阵，保留高相关样本对，通过矩阵乘得到对齐表征 \(\hat{\mathbf{X}}^{(j)} = \mathbf{X}^{(j)} \mathbf{C}^{(ij)}\)
- 设计动机：直接拼接/平均会混淆不同模态的信号，相关矩阵 + 阈值过滤确保只传递高置信度的跨模态关联
模态感知记忆模块:
- 做什么：跨模态对和跨 epoch 传递上下文信息
- 核心思路：LSTM 风格的门控机制——遗忘门保持模态特定记忆，输入门控制跨模态更新，输出门调节融合输出。记忆状态不仅在同 epoch 的模态对间流动，还跨 epoch 继承
- 设计动机：弱模态的信息经记忆过滤后传给强模态，实现"由弱及强"的渐进式融合
记忆引导推理:
- 推理时复用最后一个训练 epoch 的模态更新顺序（假设模态不平衡模式在后期已稳定）
- 按同样的弱→强序列传递记忆状态

实验关键数据¶

主实验¶

数据集	模态	本文	之前SOTA	提升
CREMA-D	A+V	81.28	77.92	+3.36%
Kinetics-400	A+V	89.16	85.65	+3.51%
FOOD-101	V+T	97.11	96.57	+0.54%
UPMC-Food	V+T	95.80	-	-

缺失模态鲁棒性¶

在模态随机缺失 30%/50%/70% 条件下，本方法性能下降幅度远小于联合训练方法，验证了交替训练对单模态能力的保持。

消融实验¶

配置	CREMA-D Acc
联合训练 (baseline)	~77
交替-随机顺序	~78
交替-强→弱	~78.5
交替-弱→强 (EDM)	~81.3
w/o 记忆模块	~79
w/o 跨模态对齐	~79.5

亮点与洞察¶

理论驱动的方法设计很扎实：从 EDM 定义出发，理论证明弱→强最优，然后设计对应框架——不是靠 ablation 找到最佳配置，而是先证明再验证
LSTM 记忆跨 epoch 继承的设计使交替训练不再是断裂的：弱模态的信息通过记忆链路传递到强模态甚至下一个 epoch，实现了信息的连续积累
兼容 MLLM backbone: 不仅适用于传统编码器，也可与大语言模型结合

局限性 / 可改进方向¶

Shapley 值计算需要枚举模态子集组合，模态数增多时计算量指数增长
实验主要是双模态（A+V 或 V+T），3+ 模态场景下弱→强排序的效果待验证
缺失模态实验是随机缺失，实际场景中缺失模式可能更结构化
CREMA-D/Kinetics 规模相对有限，大规模预训练场景的适用性未验证

评分¶

新颖性: ⭐⭐⭐⭐ EDM + 弱→强交替训练的理论洞察有新意，但记忆模块设计偏传统
实验充分度: ⭐⭐⭐⭐ 4 个 benchmark + 缺失模态 + 消融，但数据集偏小
价值: ⭐⭐⭐⭐ 为模态不平衡问题提供了有理论保证的实用解决方案