Multimodal Negative Learning¶
会议: NeurIPS 2025
arXiv: 2510.20877
代码: 有
领域: 多模态学习
关键词: 多模态融合, 模态不平衡, 负学习, 鲁棒性, 决策融合
一句话总结¶
提出多模态负学习(MNL)范式,通过让强势模态引导弱势模态抑制非目标类别(而非强制对齐目标类别),稳定决策空间并保留模态特有信息,理论上收紧了多模态融合的鲁棒性下界。
研究背景与动机¶
多模态学习中,不同模态的质量、信息量差异很大,导致"模态不平衡"问题。传统方法(如知识蒸馏、自信度加权)的核心思路都是正学习——让弱模态去模仿强模态的目标类预测。然而这种"强制对齐"存在严重隐患:
模态特有信息被压制:弱模态被迫向强模态靠拢,自身独特互补信息丢失
错误传播:如果强模态在某些样本上也预测错误,弱模态会"盲目跟随"导致整体性能下降
过对齐崩溃:作者通过统计分析发现,经过 KL 引导对齐训练后,原本弱模态预测正确但强模态预测错误的样本,反而变成了错误预测
核心洞察来源于一个直觉:排除错误答案往往比选出正确答案更容易。在数据质量有限时,让弱模态学会"不选什么"比"选什么"更稳定可靠。
方法详解¶
整体框架¶
MNL 是一个基于后融合(late fusion)的框架,分两阶段训练: - Stage 1(热身阶段):仅用交叉熵损失优化各模态的目标类预测 - Stage 2(负学习阶段):在模态性能稳定后引入 MNL 损失,利用强势模态在非目标类上的信息引导弱势模态
关键设计¶
-
单模态置信度边际(UCoM):定义为目标类 logit 与最强竞争类 logit 之差 \(\xi_{(m)} = f^{(m)}(x)_y - f^{(m)}(x)_j\)。UCoM 越大表示该模态在区分目标类和竞争类时越可靠。
-
鲁棒优势模态(RDM)定义:不仅看目标类置信度高,还要求 UCoM 大。这避免了仅凭置信度判断导致的"低 margin 模态引导高 margin 模态"的风险。
-
动态引导机制:模态优势地位不是固定的,而是逐样本、逐迭代动态判断。当模态1同时满足更高目标类置信度和更大 UCoM 时才引导模态2,反之亦然。
-
MNL 核心公式:
其中 \(\bar{y}\) 在真实类处为 0、非目标类处为 1。关键在于只在非目标类上做引导,且 RDM 的预测被 detach(不回传梯度)。
损失函数 / 训练策略¶
总损失函数:
- 前两项负责目标类的正学习(交叉熵)
- 第三项负责非目标类的负学习
- \(\lambda\) 控制 MNL 强度
理论保证¶
定理 3.1:在双模态后融合中,鲁棒性半径的下界为:
即提升各模态的 UCoM 可以直接收紧多模态系统的鲁棒性下界。MNL 正是通过抑制非目标类不确定性来增大 UCoM。
实验关键数据¶
主实验(表格)¶
| 方法 | MVSA (ε=0/5/10) | FOOD101 (ε=0/5/10) | CREMA-D (ε=0/5/10) |
|---|---|---|---|
| LF | 76.88/63.46/55.16 | 90.69/68.49/57.99 | 68.04/64.25/52.39 |
| LF+MNL | 79.50/74.03/63.01 | 92.77/75.16/62.06 | 73.71/70.35/57.26 |
| Δ | +2.62/+10.57/+7.85 | +2.08/+6.67/+4.06 | +5.67/+6.10/+4.87 |
| 79.94/74.40/63.09 | 93.32/76.47/62.83 | 67.07/64.57/53.33 | |
| PDF+MNL | 80.54/74.07/63.78 | 93.33/76.65/63.16 | 69.18/66.94/55.43 |
MNL 对静态融合(LF)提升显著(MVSA ε=5 提升 10.57%),对动态融合(PDF/QMF)提升相对温和但一致。
消融实验(表格)¶
| 引导策略 | Prior | Confident | Robust | MVSA ε=0/5/10 |
|---|---|---|---|---|
| LF 基线 | - | - | - | 76.88/63.46/55.16 |
| 固定先验引导 | ✓ | 78.66/72.69/62.77 | ||
| 仅置信度引导 | ✓ | 78.74/71.87/59.35 | ||
| 置信度+UCoM | ✓ | ✓ | 79.50/74.03/63.01 |
| 引导范围 | All-Class | Non-Target | MVSA ε=0/5/10 |
|---|---|---|---|
| 全类引导 | ✓ | 78.90/72.16/62.52 | |
| 仅非目标类引导 | ✓ | 79.50/74.03/63.01 |
关键发现¶
- MNL 对静态融合的提升远大于动态融合,因为动态融合本身会降低弱模态权重,与 MNL 增大弱模态 margin 的目标存在错位
- 在 NYU Depth V2 上提升较小,因为两个模态本身差距不大,强模态引导空间有限
- 非目标类引导(Non-Target)一致优于全类引导(All-Class),验证了"只教弱模态排除错误"比"全面对齐"更有效
- 动态引导(Confident+Robust)优于固定先验引导,说明模态优势地位确实因样本而异
亮点与洞察¶
- 范式创新:将多模态融合从"正学习"转向"负学习",视角新颖且直觉清晰
- 理论扎实:从鲁棒性下界推导出 UCoM 的重要性,并据此设计了 RDM 定义和 MNL 损失
- 即插即用:MNL 兼容各种后融合方法,不引入额外推理开销
- 动态引导:逐样本判断模态优势而非全局固定,更贴合实际
局限与展望¶
- 目前仅适用于后融合框架,对中间融合和早期融合的扩展尚未探索
- 仅考虑双模态情况,多模态(>2)场景下 RDM 的选择和引导关系更复杂
- 当两模态质量接近时(如 NYU Depth V2),MNL 收益有限
- 动态引导的判断依赖当前 batch 的预测,对极端噪声场景是否稳定需进一步验证
相关工作与启发¶
- 正向对齐方法(KD、自信度加权)易导致模态信息压制,是本文的直接对比对象
- 负学习思想源自 NL-NL(Kim et al.)在标签噪声中的应用,本文首次将其引入多模态融合
- 鲁棒性分析沿袭 yang2024quantifying 的多模态鲁棒性度量,并将其扩展到后融合框架
- 对 AI Safety 领域有启发:模态不平衡下的决策可靠性是安全关键场景的核心问题
评分¶
- 新颖性: ⭐⭐⭐⭐ — "负学习"视角在多模态融合中是首创,UCoM 定义和动态引导机制有理论支撑
- 实验充分度: ⭐⭐⭐⭐ — 4个数据集、多种融合方法、多种噪声类型、充分消融,但缺少大规模视觉-语言模型验证
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,动机图示直观,但符号较多需要仔细跟读
- 价值: ⭐⭐⭐⭐ — 即插即用的模块化设计有实际应用价值,理论贡献也有参考意义
相关论文¶
- [NeurIPS 2025] Continual Multimodal Contrastive Learning
- [NeurIPS 2025] Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning
- [NeurIPS 2025] On the Value of Cross-Modal Misalignment in Multimodal Representation Learning
- [NeurIPS 2025] Learning to Steer: Input-dependent Steering for Multimodal LLMs
- [NeurIPS 2025] Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion