跳转至

Multimodal Negative Learning

会议: NeurIPS 2025
arXiv: 2510.20877
代码:
领域: 多模态学习
关键词: 多模态融合, 模态不平衡, 负学习, 鲁棒性, 决策融合

一句话总结

提出多模态负学习(MNL)范式,通过让强势模态引导弱势模态抑制非目标类别(而非强制对齐目标类别),稳定决策空间并保留模态特有信息,理论上收紧了多模态融合的鲁棒性下界。

研究背景与动机

多模态学习中,不同模态的质量、信息量差异很大,导致"模态不平衡"问题。传统方法(如知识蒸馏、自信度加权)的核心思路都是正学习——让弱模态去模仿强模态的目标类预测。然而这种"强制对齐"存在严重隐患:

模态特有信息被压制:弱模态被迫向强模态靠拢,自身独特互补信息丢失

错误传播:如果强模态在某些样本上也预测错误,弱模态会"盲目跟随"导致整体性能下降

过对齐崩溃:作者通过统计分析发现,经过 KL 引导对齐训练后,原本弱模态预测正确但强模态预测错误的样本,反而变成了错误预测

核心洞察来源于一个直觉:排除错误答案往往比选出正确答案更容易。在数据质量有限时,让弱模态学会"不选什么"比"选什么"更稳定可靠。

方法详解

整体框架

MNL 是一个基于后融合(late fusion)的框架,分两阶段训练: - Stage 1(热身阶段):仅用交叉熵损失优化各模态的目标类预测 - Stage 2(负学习阶段):在模态性能稳定后引入 MNL 损失,利用强势模态在非目标类上的信息引导弱势模态

关键设计

  1. 单模态置信度边际(UCoM):定义为目标类 logit 与最强竞争类 logit 之差 \(\xi_{(m)} = f^{(m)}(x)_y - f^{(m)}(x)_j\)。UCoM 越大表示该模态在区分目标类和竞争类时越可靠。

  2. 鲁棒优势模态(RDM)定义:不仅看目标类置信度高,还要求 UCoM 大。这避免了仅凭置信度判断导致的"低 margin 模态引导高 margin 模态"的风险。

  3. 动态引导机制:模态优势地位不是固定的,而是逐样本、逐迭代动态判断。当模态1同时满足更高目标类置信度和更大 UCoM 时才引导模态2,反之亦然。

  4. MNL 核心公式

\[MNL(P^{(RDM)}, P^{(IM)}, \bar{y}) = -\bar{y} \cdot P^{(RDM)} \cdot \log(P^{(IM)})\]

其中 \(\bar{y}\) 在真实类处为 0、非目标类处为 1。关键在于只在非目标类上做引导,且 RDM 的预测被 detach(不回传梯度)。

损失函数 / 训练策略

总损失函数:

\[\mathcal{L} = CE(P^{fusion}, y) + \sum_{i=1}^{2} CE(P^{(i)}, y) + \lambda \cdot MNL(P^{(RDM)}, P^{(IM)}, \bar{y})\]
  • 前两项负责目标类的正学习(交叉熵)
  • 第三项负责非目标类的负学习
  • \(\lambda\) 控制 MNL 强度

理论保证

定理 3.1:在双模态后融合中,鲁棒性半径的下界为:

\[R(x_i) \geq \frac{w^{(1)}\xi_{(1)} + w^{(2)}\xi_{(2)}}{\sqrt{(w^{(1)}\tau_{(1)})^2 + (w^{(2)}\tau_{(2)})^2}}\]

即提升各模态的 UCoM 可以直接收紧多模态系统的鲁棒性下界。MNL 正是通过抑制非目标类不确定性来增大 UCoM。

实验关键数据

主实验(表格)

方法 MVSA (ε=0/5/10) FOOD101 (ε=0/5/10) CREMA-D (ε=0/5/10)
LF 76.88/63.46/55.16 90.69/68.49/57.99 68.04/64.25/52.39
LF+MNL 79.50/74.03/63.01 92.77/75.16/62.06 73.71/70.35/57.26
Δ +2.62/+10.57/+7.85 +2.08/+6.67/+4.06 +5.67/+6.10/+4.87
PDF 79.94/74.40/63.09 93.32/76.47/62.83 67.07/64.57/53.33
PDF+MNL 80.54/74.07/63.78 93.33/76.65/63.16 69.18/66.94/55.43

MNL 对静态融合(LF)提升显著(MVSA ε=5 提升 10.57%),对动态融合(PDF/QMF)提升相对温和但一致。

消融实验(表格)

引导策略 Prior Confident Robust MVSA ε=0/5/10
LF 基线 - - - 76.88/63.46/55.16
固定先验引导 78.66/72.69/62.77
仅置信度引导 78.74/71.87/59.35
置信度+UCoM 79.50/74.03/63.01
引导范围 All-Class Non-Target MVSA ε=0/5/10
全类引导 78.90/72.16/62.52
仅非目标类引导 79.50/74.03/63.01

关键发现

  • MNL 对静态融合的提升远大于动态融合,因为动态融合本身会降低弱模态权重,与 MNL 增大弱模态 margin 的目标存在错位
  • 在 NYU Depth V2 上提升较小,因为两个模态本身差距不大,强模态引导空间有限
  • 非目标类引导(Non-Target)一致优于全类引导(All-Class),验证了"只教弱模态排除错误"比"全面对齐"更有效
  • 动态引导(Confident+Robust)优于固定先验引导,说明模态优势地位确实因样本而异

亮点与洞察

  1. 范式创新:将多模态融合从"正学习"转向"负学习",视角新颖且直觉清晰
  2. 理论扎实:从鲁棒性下界推导出 UCoM 的重要性,并据此设计了 RDM 定义和 MNL 损失
  3. 即插即用:MNL 兼容各种后融合方法,不引入额外推理开销
  4. 动态引导:逐样本判断模态优势而非全局固定,更贴合实际

局限与展望

  • 目前仅适用于后融合框架,对中间融合和早期融合的扩展尚未探索
  • 仅考虑双模态情况,多模态(>2)场景下 RDM 的选择和引导关系更复杂
  • 当两模态质量接近时(如 NYU Depth V2),MNL 收益有限
  • 动态引导的判断依赖当前 batch 的预测,对极端噪声场景是否稳定需进一步验证

相关工作与启发

  • 正向对齐方法(KD、自信度加权)易导致模态信息压制,是本文的直接对比对象
  • 负学习思想源自 NL-NL(Kim et al.)在标签噪声中的应用,本文首次将其引入多模态融合
  • 鲁棒性分析沿袭 yang2024quantifying 的多模态鲁棒性度量,并将其扩展到后融合框架
  • 对 AI Safety 领域有启发:模态不平衡下的决策可靠性是安全关键场景的核心问题

评分

  • 新颖性: ⭐⭐⭐⭐ — "负学习"视角在多模态融合中是首创,UCoM 定义和动态引导机制有理论支撑
  • 实验充分度: ⭐⭐⭐⭐ — 4个数据集、多种融合方法、多种噪声类型、充分消融,但缺少大规模视觉-语言模型验证
  • 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,动机图示直观,但符号较多需要仔细跟读
  • 价值: ⭐⭐⭐⭐ — 即插即用的模块化设计有实际应用价值,理论贡献也有参考意义

相关论文