Learning Optimal Multimodal Information Bottleneck Representations¶

会议: ICML2025
arXiv: 2505.19996
代码: 未公开
领域: multimodal_vlm
关键词: 多模态学习, 信息瓶颈, 变分推断, regularization bound, cross-attention fusion

一句话总结¶

提出 OMIB 框架，通过理论推导正则化参数 β 的上界并动态调整各模态权重 r，保证多模态信息瓶颈表示的最优性（包含全部任务相关信息、排除冗余信息）。

研究背景与动机¶

领域现状¶

领域现状：多模态信息瓶颈（MIB）方法通过最大化表示与标签的互信息、最小化与输入的互信息来平衡充分性与简洁性

现有痛点¶

现有痛点：现有问题一**：正则化参数 β 通常靠手工调参，取值不当会导致要么保留冗余信息、要么丢失任务相关信息，无法保证最优 MIB

核心矛盾¶

核心矛盾：现有问题二**：各模态的正则化权重固定，忽略了模态间任务相关信息不平衡问题（弱模态可能携带少量但关键信息）

解决思路¶

解决思路：现有问题三**：已有理论未同时覆盖一致性、互补性、特异性、充分性、简洁性五个信息论因素

补充说明¶

补充说明：作者首次给出了 β 的理论上界 \(M_u\)，在此范围内优化可保证达到最优 MIB

方法详解¶

整体框架（OMIB）¶

OMIB 包含两阶段训练： 1. Warm-up 阶段：Task Relevance Branch（TRB）为每个模态 \(v_i\) 训练编码器 \(Enc_i\) 提取充分表示 \(z_i\)，拼接高斯噪声后经预测头 \(Dec_i\) 预测标签 2. Main Training 阶段：增加 Optimal Multimodal Fusion（OMF）模块，将 \(z_i\) 通过 VAE 生成 \(\zeta_i\)，再用 Cross-Attention Network（CAN）融合为 MIB 表示 \(\xi\)

关键设计¶

VAE + 重参数化：\(\mu_i, \Sigma_i = VAE_i(z_i)\)，\(\zeta_i = \mu_i + \Sigma_i \times \epsilon_i\)
Cross-Attention 融合：\(\xi = CAN(\zeta_1, \zeta_2)\)

损失函数¶

OMF 的损失：

\[L_{OMF} = \frac{1}{N}\sum_{n=1}^{N} \mathbb{E}_{\epsilon_1}\mathbb{E}_{\epsilon_2}[-\log q(y^n|\xi^n)] + \beta(KL[p(\zeta_1^n|z_1^n)||\mathcal{N}(0,I)] + r \cdot KL[p(\zeta_2^n|z_2^n)||\mathcal{N}(0,I)])\]

其中 β 控制冗余约束强度，r 动态平衡两模态正则化。

动态权重 r 的计算¶

\[r = 1 - \tanh\left(\ln \frac{1}{N}\sum_{n}\frac{KL(p(\hat{y}_2^n|\xi^n,z_2^n)||p(\hat{y}^n|\xi^n))}{KL(p(\hat{y}_1^n|\xi^n,z_1^n)||p(\hat{y}^n|\xi^n))}\right)\]

当 \(v_2\) 的任务相关信息仍大量未被编码时 r 偏小，鼓励从 \(v_2\) 纳入更多信息。

β 的理论上界¶

\[M_u = \frac{1}{(1+r)(H(v_1)+H(v_2)-I(v_1;v_2))}\]

设 \(\beta \in (0, M_u]\) 即可保证 \(F(\xi) = \{a_0,a_1,a_2\}\)（最优 MIB），通过 MINE 从训练数据先验计算。

实验关键数据¶

主实验¶

任务	数据集	OMIB	最佳基线	提升
情感识别	CREMA-D	最优	次优基线	显著
情感分析	CMU-MOSI	最优	次优基线	回归+分类均领先
异常组织检测	10x-hBC	最优	DMIB	AUC 提升
合成数据	SIM-I/III	0.892/0.890	真实最优MIB 0.909/0.908	接近上界

合成数据验证：OMIB 生成的 MIB 准确率（0.892）接近理论最优 MIB（0.909）
β 超出理论上界时性能显著下降，验证了 Proposition 5.7

亮点与洞察¶

理论创新突出：首次给出最优 MIB 的可达性证明（Proposition 5.7），为 β 设定提供数学保障
动态权重 r：优雅地解决了模态间信息不平衡问题，无需手工调整
五因素统一：理论分析完整覆盖一致性、互补性、特异性、充分性、简洁性
合成+真实验证：合成数据可精确验证理论性质

局限与展望¶

β 上界的计算依赖 MINE 估计互信息，对高维复杂数据可能不精确
主要验证了两模态场景，多模态（≥3）的扩展虽在附录讨论但缺乏实验
合成数据场景相对简单（高斯分布），实际数据的信息结构远更复杂
CAN 融合结构较固定，未探索其他融合策略的影响
Warm-up 训练阶段使用随机噪声替代 MIB，过渡到 Main Training 的稳定性未充分讨论
对于大规模视觉-语言多模态任务（如 VQA、图文检索），scalability 是开放问题
动态权重 r 的 tanh 映射引入了人为的上界 (0,2)，可能限制极端不平衡场景
理论分析假设模态间信息结构符合 Venn 图式分解，实际模态关系可能更复杂
未与近年基于 Transformer 的端到端多模态融合方法（如 Perceiver、CoCa）做对比
训练包含 TRB + OMF 两阶段，增加了训练复杂度和超参数调优难度

评分¶

新颖性: ⭐⭐⭐⭐ (理论贡献扎实，首次证明最优 MIB 可达性)
实验充分度: ⭐⭐⭐⭐ (合成+多个真实任务，消融完整)
写作质量: ⭐⭐⭐⭐ (理论推导清晰，图示直观)
价值: ⭐⭐⭐⭐ (为 MIB 方法提供了坚实理论基础)

补充实验细节¶

合成数据上，当 β 设为理论上界 \(M_u\) 时准确率最高，超过后急剧下降
CREMA-D 情感识别：音视频双模态，6类情感分类
CMU-MOSI 情感分析：视觉+音频+文本三模态，回归(-3到3)和分类任务
10x-hBC 异常组织检测：基因表达+组织学图像，SVDD异常检测
与 L-MIB、E-MIB、C-MIB、MMIB-Zhang、DMIB 等基线全面对比
非 MIB 基线包括 Concat、BiGated、MISA 等融合方法
变分近似使用 KL 散度，重参数化技巧保证可微性