Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion¶
会议: NeurIPS 2025
arXiv: 2502.20120
代码: https://github.com/njustkmg/NeurIPS25-AUG
作者: Qing-Yuan Jiang, Longfei Huang, Yang Yang(南京理工大学 / 南京大学)
领域: 多模态学习 · 模态不平衡
关键词: modality imbalance, classification ability disproportion, sustained boosting, adaptive classifier assignment
一句话总结¶
提出"分类能力不均衡"视角理解多模态学习中的模态不平衡,设计 Sustained Boosting 算法(共享编码器 + 多可配置分类器,同时优化分类和残差误差)配合自适应分类器分配(ACA),理论证明跨模态 gap loss 以 \(\mathcal{O}(1/T)\) 收敛,在 CREMAD 等 6 个数据集上大幅超越 SOTA。
背景与动机¶
多模态学习(MML)的核心瓶颈是模态不平衡:联合训练时不同模态收敛速度差异显著。在 CREMAD 数据集上,音频(强模态)单模态准确率 ~63%,视频(弱模态)仅 ~45%,差距悬殊。现有解决方案分两类:
- 调节学习过程——OGM 做梯度调制、MSLR 调学习率、G-Blend 自适应融合权重,本质是放慢强模态 / 加速弱模态
- 增强模态交互——MLA 交替训练传递优化信息、ReconBoost 用梯度 boosting 捕获跨模态互补信息、DI-MML 注入跨模态优化信号
关键洞察:上述方法都在"平衡学习速度"层面做文章,忽视了更根本的问题——弱模态分类器的分类能力本身就不足。即使学习速度平衡了,弱分类器容量不够仍无法匹配强模态。
作者用 toy experiment 验证:对 naive MML 训练后的视频模态额外施加 gradient boosting(音频不动),视频准确率从 ~45% 跳到 ~65%+,整体准确率从 0.6507 升至远超 G-Blend 的水平。这证明直接增强弱模态分类能力是可行且有效的。
核心问题¶
如何在多模态联合训练框架中直接提升弱模态的分类能力,使强弱模态的分类性能趋于均衡,而非仅仅平衡学习速度?
方法¶
整体架构¶
每个模态使用:共享编码器 \(\phi^o(\cdot)\) 提取特征 \(\boldsymbol{u}^o\) + 多个可配置分类器 \(\psi_t^o(\cdot)\) 输出预测。编码器跨分类器共享参数,分类器最后一层(Layer2)跨模态共享以增强交互。
1. Sustained Boosting 算法¶
受 gradient boosting 启发,为弱模态训练 \(n\) 个分类器,逐步学习前序分类器的残差。第 \(t\) 个分类器学习的残差标签为:
其中 \(\lambda \in [0,1]\) 控制标签平滑程度,\(\odot\) 为逐元素乘法,用 \(\boldsymbol{y}_i\) 掩码确保残差非负。
总损失由三项组成: - 残差误差 \(\epsilon\):第 \(t\) 个分类器对残差标签的交叉熵——学新信息 - 总体误差 \(\epsilon_{\text{all}}\):所有 \(t\) 个分类器预测之和对真实标签的交叉熵——保证整体准确 - 维护误差 \(\epsilon_{\text{pre}}\):前 \(t\!-\!1\) 个分类器之和对真实标签的交叉熵——防止共享编码器更新导致已有分类器退化
与传统 gradient boosting 的核心区别:传统方法是 stage-wise(逐阶段冻结),本文持续同时优化所有分类器与编码器,因此称为 "sustained" boosting。
2. 自适应分类器分配(ACA)¶
训练过程中模态间差距动态变化,固定分配分类器数量不够灵活。ACA 策略每 \(t_N\) 个 epoch 用 confident score 检测:
若 \(s_t^a - \sigma \cdot s_t^v > \tau\)(音频远强于视频),给视频新增一个分类器;反之亦然。默认 \(\sigma=1.0\),\(\tau=0.01\)。
3. 可配置分类器结构¶
每个分类器为轻量两层全连接:Layer1(\(D \times 256\)) → ReLU → Layer2(\(256 \times K\))。新增一个分类器仅增加约 1M 参数(编码器 ResNet18 为 11.8M),代价极小。
4. 理论保证¶
定义跨模态 gap 函数 \(\mathcal{G}(\Phi) = \mathcal{L}^a(\Phi^a) - \mathcal{L}^v(\Phi^v)\)。在 Lipschitz 平滑等标准假设下:
即 gap loss 以 \(\mathcal{O}(1/T)\) 收敛——弱模态的损失确实会逐步追上强模态。
实验设计¶
数据集:6 个多模态数据集覆盖音视频(CREMAD、KSounds、VGGSound)、三模态手势(NVGesture: RGB+OF+Depth)、图文(Twitter、Sarcasm)。
Baselines:传统融合(Concat、Affine、ML-LSTM、Sum、Weight)+ 再平衡方法(MSES、G-Blend、MSLR、OGM、PMR、AGM、MMPareto、SMV、MLA、DI-MML、LFM、ReconBoost),共 17 个对比方法。
实现细节: - 编码器:ResNet18(音视频)、I3D(NVGesture)、BERT + ResNet50(图文) - 优化器:SGD,lr=0.01,momentum=0.9,weight decay=1e-4;图文用 Adam,lr=2e-5 - \(\lambda\) 从 {0.1, 0.2, 0.33, 0.5, 1.0} 搜索 - \(t_N\)(检查间隔):CREMAD 20 epochs,VGGSound/KSounds/NVGesture 10,Twitter 5,Sarcasm 1
实验结果¶
主实验¶
| 数据集 | 模态 | Naive MML | 最佳 baseline | Ours |
|---|---|---|---|---|
| CREMAD | 音频+视频 | 0.6507 | 0.8362 (LFM) | 0.8515 |
| KSounds | 音频+视频 | 0.6455 | 0.7253 (LFM) | 0.7263 |
| VGGSound | 音频+视频 | 0.5116 | 0.5274 (LFM) | 0.5301 |
| 图+文 | 0.7300 | 0.7501 (LFM) | 0.7512 | |
| Sarcasm | 图+文 | 0.8294 | 0.8497 (LFM) | 0.8510 |
| NVGesture | RGB+OF+Depth | 0.8237 | 0.8436 (LFM) | 0.8501 |
所有数据集上均取得最佳结果。CREMAD 上相比 Naive MML 提升 20 个百分点,相比此前最佳 LFM 仍高 1.5%。
消融实验(CREMAD)¶
| 损失组合 | 多模态 Acc | 音频 Acc | 视频 Acc |
|---|---|---|---|
| 仅 \(\epsilon\)(残差) | 0.8333 | 0.6465 | 0.6734 |
| 仅 \(\epsilon_{\text{all}}\)(总体) | 0.8320 | 0.6573 | 0.6707 |
| 仅 \(\epsilon_{\text{pre}}\)(维护) | 0.8360 | 0.6841 | 0.6371 |
| 三者联合 | 0.8515 | 0.6835 | 0.6828 |
三项损失缺一不可,联合优化同时获得最高多模态精度与最均衡的模态表现。
自适应 vs 固定分类器¶
| 策略 | 音频/视频分类器数 | 多模态 Acc |
|---|---|---|
| 固定 10 个视频分类器 | 1+10 | 0.8091 |
| 固定 12 个视频分类器 | 1+12 | 0.8118 |
| 自适应(ACA) | 1+10(动态) | 0.8515 |
相同最终分类器数下,自适应比固定策略高 4.2%,说明"何时加"比"加多少"更重要。
模型容量控制¶
| 方法 | 架构 | 参数量 | Acc |
|---|---|---|---|
| Naive MML | R18+R18 | 23.6M | 0.6507 |
| Naive MML | R18+R34 | 35.1M | 0.6277 |
| Ours | R18+R18+classifiers | 24.6M | 0.8515 |
R18→R34 增加 11.5M 参数准确率反而下降(更难收敛)。本文仅增加 1M 参数即提升 20%——性能增益显然不来自参数量,而来自 boosting 机制。
模态缺失鲁棒性(CREMAD)¶
| 方法 | 缺失 0% | 缺失 20% | 缺失 50% |
|---|---|---|---|
| Naive MML | 0.6507 | 0.5849 | 0.5242 |
| MLA | 0.7943 | 0.6935 | 0.5753 |
| Ours | 0.8515 | 0.7540 | 0.6008 |
50% 模态缺失下,本文方法(0.6008)仍优于 MLA 完整数据的结果(0.5753 @ 50% missing)。t-SNE 可视化也表明本文方法在视频模态上学到的特征区分性显著优于 naive MML 和 ReconBoost。
亮点¶
- 视角新颖:从"分类能力不均衡"而非"学习速度不均衡"切入——抓住了模态不平衡的更本质原因
- Boosting 迁移优雅:将 gradient boosting 的残差学习无缝嵌入联合训练的多模态框架,通过 sustained 同步优化避免 stage-wise 的信息损失
- 理论闭环:证明 gap loss 的 \(\mathcal{O}(1/T)\) 收敛,为方法有效性提供理论保障
- 实验设计扎实:模型容量控制实验排除了"参数更多"的替代解释,自适应 vs 固定对比说明动态分配的必要性
局限性¶
- 理论仅分析 boosting 对 gap 收敛的影响,完整框架的整体收敛性未证明
- 分类器数量随训练递增,推理时存在线性开销
- 仅验证分类任务,检索/生成/分割等下游任务待探索
- 对 early fusion 架构的适配方案未展开讨论
- 超参数 \(t_N\) 按数据集手动设定,缺乏自适应选择机制
与相关工作的关键区别¶
- vs OGM:OGM 通过梯度调制放慢强模态学习;本文直接增强弱模态分类器容量——更根本
- vs MLA:MLA 交替训练传递优化信息弥合差距;本文通过 boosting 显式提升弱模态——CREMAD 上高 1.5% (vs LFM)
- vs ReconBoost:同样用 gradient boosting,但 ReconBoost 目标是迭代捕获跨模态互补信息;本文目标是直接提升弱模态分类能力——出发点和机制均不同
- vs 增大网络容量:R18→R34 增加 11.5M 参数反而更差;多分类器集成仅加 1M 参数效果远优——结构比容量重要
评分¶
- 新颖性: ⭐⭐⭐⭐ 分类能力不均衡视角 + sustained boosting 在 MML 中的应用有明确新意
- 实验: ⭐⭐⭐⭐⭐ 6 数据集 17 对比方法 + 消融 + 策略对比 + 容量控制 + 缺失鲁棒性 + t-SNE 可视化
- 写作: ⭐⭐⭐⭐ toy experiment 直觉清晰,问题→方法→理论逻辑链完整
- 影响力: ⭐⭐⭐⭐ 为多模态不平衡提供了新的理论框架和实用方法,CREMAD 上 20% 绝对提升令人瞩目