EBMC: Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis¶
会议: CVPR 2026
arXiv: 2604.12518
代码: https://github.com/kangverse/EBMC
领域: 多模态学习 / 情感分析
关键词: 多模态情感分析, 模态不平衡, 能量模型, 模态信任蒸馏, 鲁棒性
一句话总结¶
提出 EBMC 两阶段框架,先通过语义解缠和跨模态增强提升弱模态表示质量,再通过能量引导的模态协调和实例感知信任蒸馏实现平衡的多模态情感分析,在缺失模态场景下保持强鲁棒性。
研究背景与动机¶
领域现状:多模态情感分析(MSA)融合文本、音频和视觉信号推断情感,已有大量工作探索表示学习和多模态融合策略。
现有痛点:文本模态持续主导预测,音频和视觉信号因更弱或更嘈杂的情感线索而被低估。主导模态积累更大梯度并强化自身表示,弱模态更新不足,形成"马太效应"。
核心矛盾:模态竞争导致弱模态逐渐边缘化,特别是在噪声或现实条件下。现有方法隐式假设所有模态均衡可靠。
本文目标:(1) 增强弱模态表示质量;(2) 平衡模态贡献避免竞争;(3) 在模态缺失场景下保持鲁棒性。
切入角度:先增强再平衡的两阶段思路——先让弱模态变强,再确保强模态不压制弱模态。
核心 idea:Stage I 通过解缠和补偿增强弱模态;Stage II 用能量模型协调梯度 + 实例感知信任蒸馏动态调整融合权重。
方法详解¶
整体框架¶
Stage I(增强):模态语义解缠 MSD 分离共享/特定语义 + 跨模态互补增强 CCE 强化弱模态。Stage II(平衡):能量引导模态协调 EMC 对齐优化动态 + 实例感知模态信任蒸馏 IMTD 自适应调整融合权重。
关键设计¶
-
能量引导模态协调 (EMC):
- 功能:通过能量势和梯度流动力学重平衡模态优化
- 核心思路:首次将能量模型(EBM)引入模态协调。将每个模态的学习状态映射为能量势,不同模态的能量差异驱动隐式梯度重平衡。通过可微平衡目标使梯度贡献在模态间均衡
- 设计动机:现有方法通过启发式调整学习率或梯度,EMC 提供了基于物理直觉的原则性方法
-
实例感知模态信任蒸馏 (IMTD):
- 功能:样本级估计模态可靠性以自适应调整融合权重
- 核心思路:从概率教师信号估计每个样本中每个模态的可靠性,据此动态调制融合权重。在噪声或缺失样本上降低不可靠模态的权重
- 设计动机:不同样本中各模态的可靠性不同(如视觉清晰但音频嘈杂),需要实例级的自适应
-
模态语义解缠 + 跨模态补偿 (MSD + CCE):
- 功能:分离和增强模态特定和共享语义
- 核心思路:MSD 将每个模态分解为共享语义和模态特定语义。CCE 利用强模态(通常是文本)的互补线索增强弱模态(音频、视觉),通过跨模态注意力传递判别性信息
- 设计动机:在平衡之前先让弱模态具备足够的表示能力
损失函数 / 训练策略¶
多任务损失:情感预测损失 + 解缠正交约束 + 能量平衡目标 + 信任蒸馏 KL 散度。两阶段交替训练。
实验关键数据¶
主实验¶
| 方法 | MOSI Acc7↑ | MOSI MAE↓ | MOSEI Acc7↑ | IEMOCAP Acc↑ |
|---|---|---|---|---|
| MISA | 42.3 | 0.783 | 52.1 | 68.5 |
| Self-MM | 43.5 | 0.768 | 53.2 | 69.7 |
| UniMSE | 44.1 | 0.752 | 54.3 | 70.8 |
| EBMC | 45.8 | 0.731 | 55.6 | 72.3 |
消融实验¶
| 配置 | MOSI Acc7 | 说明 |
|---|---|---|
| 完整 EBMC | 45.8 | 全部组件 |
| 无 EMC | 43.9 | 无能量协调 |
| 无 IMTD | 44.2 | 无信任蒸馏 |
| 无 CCE | 44.5 | 无跨模态补偿 |
| 无 MSD | 44.8 | 无语义解缠 |
关键发现¶
- EMC 贡献最大(去掉后降 1.9%),说明模态协调是核心问题
- 在模态缺失场景下 EBMC 性能退化显著小于基线,证明鲁棒性
- 迁移到情感对话识别(ERC)任务上也观察到一致提升
亮点与洞察¶
- 首次将 EBM 引入模态协调是一个有物理直觉的创新:能量势自然编码模态学习状态
- "先增强后平衡"的两阶段思路具有通用性,可迁移到其他多模态学习场景
- 实例感知信任蒸馏解决了静态融合权重的固有限制
局限与展望¶
- 在 IEMOCAP 等小数据集上改善幅度有限
- 能量模型的超参数调整可能影响稳定性
- 未探索四模态以上的场景
- 可将 EMC 应用于视觉-语言预训练中的模态平衡
相关工作与启发¶
- vs MISA: MISA 做模态解缠但不处理不平衡,EBMC 在解缠基础上增加能量协调
- vs OGM-GE: OGM-GE 通过梯度操作平衡模态,EBMC 的 EBM 方法更原则性
评分¶
- 新颖性: ⭐⭐⭐⭐ EBM 模态协调是新贡献
- 实验充分度: ⭐⭐⭐⭐ 三数据集 + 缺失模态 + ERC 迁移
- 写作质量: ⭐⭐⭐⭐ 两阶段结构清晰
- 价值: ⭐⭐⭐⭐ 对多模态鲁棒学习有参考价值
相关论文¶
- [CVPR 2026] Purify-then-Align: Towards Robust Human Sensing under Modality Missing with Knowledge Distillation from Noisy Multimodal Teacher
- [ICML 2025] Robust Multimodal Large Language Models Against Modality Conflict
- [CVPR 2026] Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement
- [CVPR 2026] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
- [CVPR 2026] CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning