Multimodal Classification via Total Correlation Maximization¶

会议: ICLR 2026
arXiv: 2602.13015
代码: https://github.com/hubaak/TCMax
领域: 多模态VLM
关键词: 多模态学习, 模态竞争, 总相关性, 信息论, 损失函数设计

一句话总结¶

从信息论角度分析多模态分类中的模态竞争问题，提出 TCMax 损失函数通过最大化多模态特征与标签之间的总相关性（Total Correlation），同时兼顾联合学习、单模态学习和跨模态对齐三重目标，在多个音视频/图文分类基准上超越 SOTA。

研究背景与动机¶

领域现状：多模态学习通过融合不同模态（如音频+视觉、文本+图像）来获取更鲁棒的表征。主流做法是联合学习（joint learning），即用一个共享预测头对所有模态特征做分类。
现有痛点：联合学习存在"模态竞争"（modality competition）问题——某些模态收敛更快（如音频），导致其他模态（如视觉）被抑制，最终多模态模型甚至不如最好的单模态模型。现有平衡方法如 OGM-GE（梯度调制）、AGM（自适应梯度）虽然能缓解，但无法根本解决"模态懒惰"问题。
核心矛盾：联合学习最大化的是 \(I(y; z^{(a)}, z^{(v)})\)，当音频编码器已经学到足够信息（\(I(y; z^{(a)}) \approx H(y)\)）后，视觉编码器能学到的条件互信息 \(I(y; z^{(v)}|z^{(a)})\) 的上界趋近于零，本质上是优化目标导致强模态"挤占"弱模态的学习空间。
本文要解决什么？ 如何设计一个损失函数，既能避免模态竞争（让每个模态独立学到充分信息），又能利用跨模态交互（不像纯单模态学习那样完全割裂），同时不需要额外超参数或结构修改？
切入角度：作者从信息论出发，发现总相关性（Total Correlation）可以天然地分解为"联合学习 + 单模态学习 + 跨模态对齐"三项——这恰好覆盖了现有方法各自的优势。
核心idea一句话：用总相关性替代互信息作为优化目标，通过最大化 \(\text{TC}(z^{(a)}, z^{(v)}, y)\) 同时实现联合学习、单模态学习和模态对齐，且无需额外超参数。

方法详解¶

整体框架¶

输入为多模态数据 \((x^{(1)}, \dots, x^{(M)})\)，每个模态各有一个编码器 \(\psi^{(m)}\) 映射到特征空间 \(z^{(m)}\)，然后送入一个共享预测头 \(f_\theta\) 输出标签概率。训练时用 TCMax 损失替代普通交叉熵，推理时无需任何修改，直接用 Softmax 输出。

关键设计¶

信息论视角的模态竞争分析:
做什么：从互信息分解角度解释模态竞争的根本原因
核心思路：联合学习最大化 \(I(y; z^{(a)}, z^{(v)}) = I(y; z^{(a)}) + I(y; z^{(v)}|z^{(a)})\)。当 \(I(y; z^{(a)}) \approx H(y)\) 时，\(I(y; z^{(v)}|z^{(a)})\) 的上界趋于零，视觉编码器无空间学习
设计动机：明确了现有方法的理论缺陷——联合学习的优化目标本身就会导致模态竞争
总相关性（Total Correlation）分解:
做什么：将 TC 分解为联合学习、单模态学习和对齐三个目标的统一
核心思路：对两模态情况，\(\text{TC}(z^{(a)}, z^{(v)}, y) = I(y; z^{(a)}, z^{(v)}) + I(z^{(a)}; z^{(v)})\)，也等于 \(I(y; z^{(a)}) + I(y; z^{(v)}) + I(z^{(a)}; z^{(v)}|y)\)。第一种分解包含联合学习+对齐，第二种包含单模态学习+条件对齐
设计动机：TC 天然覆盖了现有方法各自的优势，是一个统一且无冲突的优化目标
总相关性神经估计（TCNE）:
做什么：提供 TC 的可计算下界
核心思路：将 MINE（Mutual Information Neural Estimation）从双变量推广到多变量。利用 Donsker-Varadhan 表示定理，得到 \(\text{TC} \geq \sup_\theta \mathbb{E}_{\mathbb{P}_{joint}}[T_\theta] - \log(\mathbb{E}_{\mathbb{P}_{product}}[e^{T_\theta}])\)，其中 \(T_\theta\) 是神经网络
设计动机：直接计算 TC 需要知道联合分布和边际分布的密度比，在高维空间中不可行，通过变分下界绕过这一困难
TCMax 损失函数:
做什么：将 TCNE 中的统计网络 \(T_\theta\) 与分类预测头复用，得到无需额外参数的损失
核心思路：令 \(T_\theta(z^{(1)}, \dots, z^{(M)}, y) = f_\theta(z^{(1)}, \dots, z^{(M)})_y\)，得到 \(\mathcal{L}_{\text{TCMax}} = -\mathbb{E}_{\mathbb{P}_{joint}}[F_\Theta] + \log(\mathbb{E}_{\mathbb{P}_{product}}[e^{F_\Theta}])\)。训练时需要对比正样本（来自联合分布的真实样本）和负样本（跨样本随机组合的各模态特征）
设计动机：不引入额外网络参数，仅用预测头本身作为 TC 估计器，实现"只换损失、不改结构"

损失函数 / 训练策略¶

TCMax 的直接实现需要 \(|B|^M\) 次前向传播（分母需要枚举所有模态特征的组合），计算开销大。两个优化策略：

负样本采样：从 \(\mathcal{B} \times \mathcal{B}\) 中随机采样 \(\mathcal{N}\) 个负样本对，将 \(O(|B|^M)\) 降为 \(O(|\mathcal{N}|)\)
线性融合解耦：如果预测头是 \(f_\theta(z^{(a)}, z^{(v)}) = f^{(a)}(z^{(a)}) + f^{(v)}(z^{(v)})\)，则分母可分解为各模态独立求和，复杂度降为 \(O(|B|)\)

理论保证：(1) 最小化 \(\mathcal{L}_{\text{TCMax}}\) 等价于提升 TC 下界；(2) 当 TC 估计器达到最优时，模型能精确估计联合分布（Proposition 2-3）；(3) 推理时无需任何额外操作。

实验关键数据¶

主实验¶

在 5 个音视频/图文数据集上与 10+ 方法对比，使用 ResNet-18 从头训练：

数据集	指标	TCMax (Share Head)	之前SOTA (MMPareto)	提升
CREMA-D	Acc	82.7	74.4	+8.3%
Kinetics-Sounds	Acc	63.5	62.7	+0.8%
AVE	Acc	64.5	63.1	+1.4%
VGGSound	Acc	47.6	46.2	+1.4%
UCF101	Acc	56.0	55.9	+0.1%

消融实验¶

配置	说明
TCMax (Concat)	使用拼接融合，也能获得竞争力结果
TCMax (Share Head)	使用共享头融合，整体最优
负样本数影响	CREMA-D 在 1024 负样本时最优，UCF101 在 256 时最优
JS 散度分析	TCMax 在所有数据集上模态间预测一致性最高（JS散度最低）
预测熵均衡	TCMax 的强弱模态预测熵比 \(\rho\) 最接近 1（CREMA-D: 1.549 vs Concat: 2.913）

关键发现¶

TCMax 的多模态增益主要来自跨模态协同而非单模态提升：单模态性能与 unimodal 方法持平，但多模态融合显著更优
JS 散度实验证实 TCMax 确实学到了跨模态对齐：两个模态的预测分布最一致
训练曲线显示 TCMax 损失值始终高于联合/单模态学习，有效防止过拟合
使用 CLIP 冻结编码器时 TCMax 仍有效（MVSA 上 ViT-B/32: 84.05 vs Joint: 82.83）

亮点与洞察¶

统一框架：通过一个 TC 量，自然统一了联合学习、单模态学习和对齐三个通常需要多个损失和超参数平衡的目标。巧妙之处在于这不是人为拼凑，而是 TC 的数学分解自然包含这三项
零超参数：TCMax 不引入任何额外超参数（不像 QMF 需要正则化权重、MMPareto 需要 Pareto 方向调整），直接替换交叉熵即可使用。这大幅降低了实际应用的调参成本
TCNE→MINE 推广：将 MINE 从二变量推广到多变量是一个自然但有价值的理论贡献，可迁移到任何需要衡量多变量依赖性的场景（如多任务学习、多视角表示学习）
线性融合解耦技巧：利用 \(\exp(a+b) = \exp(a)\exp(b)\)，当预测头是线性融合时将负样本计算从 \(O(|B|^2)\) 降到 \(O(|B|)\)，这个技巧可迁移到其他对比学习场景

局限性 / 可改进方向¶

作者承认 TCMax 目前仅适用于分类任务，无法直接扩展到检测、生成等任务——需要重新定义输入输出的概率分布
实验仅使用 ResNet-18 从头训练，缺乏在大规模预训练模型（如 ViT-L、大型多模态模型）上的验证（CLIP 实验只冻结了编码器）
负样本采样数的选择依赖数据集（CREMA-D 需要 1024，UCF101 只需 256），缺乏自适应选择机制
非线性融合头的计算开销仍为 \(O(|\mathcal{N}|)\)，在大 batch 或多模态场景下可能成为瓶颈
所有实验数据集规模较小（最大 VGGSound ~15万），未在百万级数据集上验证可扩展性

评分¶

新颖性: ⭐⭐⭐⭐ 信息论视角不是全新的，但 TC 统一三重目标的见解很深刻
实验充分度: ⭐⭐⭐⭐ 5个数据集+多种分析，但缺少大规模验证
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰严谨，motivation 层层递进
价值: ⭐⭐⭐⭐ 实用的无超参数损失函数，但受限于分类任务