跳转至

Multimodal Classification via Total Correlation Maximization

会议: ICLR 2026
arXiv: 2602.13015
代码: https://github.com/hubaak/TCMax
领域: 多模态VLM
关键词: 多模态学习, 模态竞争, 总相关性, 信息论, 损失函数设计

一句话总结

从信息论角度分析多模态分类中的模态竞争问题,提出 TCMax 损失函数通过最大化多模态特征与标签之间的总相关性(Total Correlation),同时兼顾联合学习、单模态学习和跨模态对齐三重目标,在多个音视频/图文分类基准上超越 SOTA。

研究背景与动机

  1. 领域现状:多模态学习通过融合不同模态(如音频+视觉、文本+图像)来获取更鲁棒的表征。主流做法是联合学习(joint learning),即用一个共享预测头对所有模态特征做分类。
  2. 现有痛点:联合学习存在"模态竞争"(modality competition)问题——某些模态收敛更快(如音频),导致其他模态(如视觉)被抑制,最终多模态模型甚至不如最好的单模态模型。现有平衡方法如 OGM-GE(梯度调制)、AGM(自适应梯度)虽然能缓解,但无法根本解决"模态懒惰"问题。
  3. 核心矛盾:联合学习最大化的是 \(I(y; z^{(a)}, z^{(v)})\),当音频编码器已经学到足够信息(\(I(y; z^{(a)}) \approx H(y)\))后,视觉编码器能学到的条件互信息 \(I(y; z^{(v)}|z^{(a)})\) 的上界趋近于零,本质上是优化目标导致强模态"挤占"弱模态的学习空间。
  4. 本文要解决什么? 如何设计一个损失函数,既能避免模态竞争(让每个模态独立学到充分信息),又能利用跨模态交互(不像纯单模态学习那样完全割裂),同时不需要额外超参数或结构修改?
  5. 切入角度:作者从信息论出发,发现总相关性(Total Correlation)可以天然地分解为"联合学习 + 单模态学习 + 跨模态对齐"三项——这恰好覆盖了现有方法各自的优势。
  6. 核心idea一句话:用总相关性替代互信息作为优化目标,通过最大化 \(\text{TC}(z^{(a)}, z^{(v)}, y)\) 同时实现联合学习、单模态学习和模态对齐,且无需额外超参数。

方法详解

整体框架

输入为多模态数据 \((x^{(1)}, \dots, x^{(M)})\),每个模态各有一个编码器 \(\psi^{(m)}\) 映射到特征空间 \(z^{(m)}\),然后送入一个共享预测头 \(f_\theta\) 输出标签概率。训练时用 TCMax 损失替代普通交叉熵,推理时无需任何修改,直接用 Softmax 输出。

关键设计

  1. 信息论视角的模态竞争分析:
  2. 做什么:从互信息分解角度解释模态竞争的根本原因
  3. 核心思路:联合学习最大化 \(I(y; z^{(a)}, z^{(v)}) = I(y; z^{(a)}) + I(y; z^{(v)}|z^{(a)})\)。当 \(I(y; z^{(a)}) \approx H(y)\) 时,\(I(y; z^{(v)}|z^{(a)})\) 的上界趋于零,视觉编码器无空间学习
  4. 设计动机:明确了现有方法的理论缺陷——联合学习的优化目标本身就会导致模态竞争

  5. 总相关性(Total Correlation)分解:

  6. 做什么:将 TC 分解为联合学习、单模态学习和对齐三个目标的统一
  7. 核心思路:对两模态情况,\(\text{TC}(z^{(a)}, z^{(v)}, y) = I(y; z^{(a)}, z^{(v)}) + I(z^{(a)}; z^{(v)})\),也等于 \(I(y; z^{(a)}) + I(y; z^{(v)}) + I(z^{(a)}; z^{(v)}|y)\)。第一种分解包含联合学习+对齐,第二种包含单模态学习+条件对齐
  8. 设计动机:TC 天然覆盖了现有方法各自的优势,是一个统一且无冲突的优化目标

  9. 总相关性神经估计(TCNE):

  10. 做什么:提供 TC 的可计算下界
  11. 核心思路:将 MINE(Mutual Information Neural Estimation)从双变量推广到多变量。利用 Donsker-Varadhan 表示定理,得到 \(\text{TC} \geq \sup_\theta \mathbb{E}_{\mathbb{P}_{joint}}[T_\theta] - \log(\mathbb{E}_{\mathbb{P}_{product}}[e^{T_\theta}])\),其中 \(T_\theta\) 是神经网络
  12. 设计动机:直接计算 TC 需要知道联合分布和边际分布的密度比,在高维空间中不可行,通过变分下界绕过这一困难

  13. TCMax 损失函数:

  14. 做什么:将 TCNE 中的统计网络 \(T_\theta\) 与分类预测头复用,得到无需额外参数的损失
  15. 核心思路:令 \(T_\theta(z^{(1)}, \dots, z^{(M)}, y) = f_\theta(z^{(1)}, \dots, z^{(M)})_y\),得到 \(\mathcal{L}_{\text{TCMax}} = -\mathbb{E}_{\mathbb{P}_{joint}}[F_\Theta] + \log(\mathbb{E}_{\mathbb{P}_{product}}[e^{F_\Theta}])\)。训练时需要对比正样本(来自联合分布的真实样本)和负样本(跨样本随机组合的各模态特征)
  16. 设计动机:不引入额外网络参数,仅用预测头本身作为 TC 估计器,实现"只换损失、不改结构"

损失函数 / 训练策略

TCMax 的直接实现需要 \(|B|^M\) 次前向传播(分母需要枚举所有模态特征的组合),计算开销大。两个优化策略:

  • 负样本采样:从 \(\mathcal{B} \times \mathcal{B}\) 中随机采样 \(\mathcal{N}\) 个负样本对,将 \(O(|B|^M)\) 降为 \(O(|\mathcal{N}|)\)
  • 线性融合解耦:如果预测头是 \(f_\theta(z^{(a)}, z^{(v)}) = f^{(a)}(z^{(a)}) + f^{(v)}(z^{(v)})\),则分母可分解为各模态独立求和,复杂度降为 \(O(|B|)\)

理论保证:(1) 最小化 \(\mathcal{L}_{\text{TCMax}}\) 等价于提升 TC 下界;(2) 当 TC 估计器达到最优时,模型能精确估计联合分布(Proposition 2-3);(3) 推理时无需任何额外操作。

实验关键数据

主实验

在 5 个音视频/图文数据集上与 10+ 方法对比,使用 ResNet-18 从头训练:

数据集 指标 TCMax (Share Head) 之前SOTA (MMPareto) 提升
CREMA-D Acc 82.7 74.4 +8.3%
Kinetics-Sounds Acc 63.5 62.7 +0.8%
AVE Acc 64.5 63.1 +1.4%
VGGSound Acc 47.6 46.2 +1.4%
UCF101 Acc 56.0 55.9 +0.1%

消融实验

配置 说明
TCMax (Concat) 使用拼接融合,也能获得竞争力结果
TCMax (Share Head) 使用共享头融合,整体最优
负样本数影响 CREMA-D 在 1024 负样本时最优,UCF101 在 256 时最优
JS 散度分析 TCMax 在所有数据集上模态间预测一致性最高(JS散度最低)
预测熵均衡 TCMax 的强弱模态预测熵比 \(\rho\) 最接近 1(CREMA-D: 1.549 vs Concat: 2.913)

关键发现

  • TCMax 的多模态增益主要来自跨模态协同而非单模态提升:单模态性能与 unimodal 方法持平,但多模态融合显著更优
  • JS 散度实验证实 TCMax 确实学到了跨模态对齐:两个模态的预测分布最一致
  • 训练曲线显示 TCMax 损失值始终高于联合/单模态学习,有效防止过拟合
  • 使用 CLIP 冻结编码器时 TCMax 仍有效(MVSA 上 ViT-B/32: 84.05 vs Joint: 82.83)

亮点与洞察

  • 统一框架:通过一个 TC 量,自然统一了联合学习、单模态学习和对齐三个通常需要多个损失和超参数平衡的目标。巧妙之处在于这不是人为拼凑,而是 TC 的数学分解自然包含这三项
  • 零超参数:TCMax 不引入任何额外超参数(不像 QMF 需要正则化权重、MMPareto 需要 Pareto 方向调整),直接替换交叉熵即可使用。这大幅降低了实际应用的调参成本
  • TCNE→MINE 推广:将 MINE 从二变量推广到多变量是一个自然但有价值的理论贡献,可迁移到任何需要衡量多变量依赖性的场景(如多任务学习、多视角表示学习)
  • 线性融合解耦技巧:利用 \(\exp(a+b) = \exp(a)\exp(b)\),当预测头是线性融合时将负样本计算从 \(O(|B|^2)\) 降到 \(O(|B|)\),这个技巧可迁移到其他对比学习场景

局限性 / 可改进方向

  • 作者承认 TCMax 目前仅适用于分类任务,无法直接扩展到检测、生成等任务——需要重新定义输入输出的概率分布
  • 实验仅使用 ResNet-18 从头训练,缺乏在大规模预训练模型(如 ViT-L、大型多模态模型)上的验证(CLIP 实验只冻结了编码器)
  • 负样本采样数的选择依赖数据集(CREMA-D 需要 1024,UCF101 只需 256),缺乏自适应选择机制
  • 非线性融合头的计算开销仍为 \(O(|\mathcal{N}|)\),在大 batch 或多模态场景下可能成为瓶颈
  • 所有实验数据集规模较小(最大 VGGSound ~15万),未在百万级数据集上验证可扩展性

相关工作与启发

  • vs OGM-GE/AGM: 这些方法通过梯度调制平衡模态贡献,但只解决"症状"(梯度不均衡)不解决"病因"(优化目标本身的缺陷)。TCMax 从目标函数层面重新设计,更根本
  • vs QMF/MLA: 这些方法显式引入单模态损失+正则化项,需要超参数平衡。TCMax 通过 TC 分解天然包含单模态目标,无需额外项
  • vs MMPareto: MMPareto 用 Pareto 优化平衡多目标方向,但仍是在多个独立目标之间做权衡。TCMax 用单一目标统一替代,更简洁
  • vs 对比学习 (InfoNCE): InfoNCE 是 MINE 的一个特例(固定函数形式),而 TCMax 可以看作 InfoNCE 从 pair-wise 到 multi-variable 的自然推广

评分

  • 新颖性: ⭐⭐⭐⭐ 信息论视角不是全新的,但 TC 统一三重目标的见解很深刻
  • 实验充分度: ⭐⭐⭐⭐ 5个数据集+多种分析,但缺少大规模验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰严谨,motivation 层层递进
  • 价值: ⭐⭐⭐⭐ 实用的无超参数损失函数,但受限于分类任务