Multimodal Negative Learning¶

会议: NeurIPS 2025
arXiv: 2510.20877
代码: 有
领域: 多模态学习
关键词: 多模态融合, 模态不平衡, 负学习, 鲁棒性, 决策融合

一句话总结¶

提出多模态负学习（MNL）范式，通过让强势模态引导弱势模态抑制非目标类别（而非强制对齐目标类别），稳定决策空间并保留模态特有信息，理论上收紧了多模态融合的鲁棒性下界。

研究背景与动机¶

多模态学习中，不同模态的质量、信息量差异很大，导致"模态不平衡"问题。传统方法（如知识蒸馏、自信度加权）的核心思路都是正学习——让弱模态去模仿强模态的目标类预测。然而这种"强制对齐"存在严重隐患：

模态特有信息被压制：弱模态被迫向强模态靠拢，自身独特互补信息丢失

错误传播：如果强模态在某些样本上也预测错误，弱模态会"盲目跟随"导致整体性能下降

过对齐崩溃：作者通过统计分析发现，经过 KL 引导对齐训练后，原本弱模态预测正确但强模态预测错误的样本，反而变成了错误预测

核心洞察来源于一个直觉：排除错误答案往往比选出正确答案更容易。在数据质量有限时，让弱模态学会"不选什么"比"选什么"更稳定可靠。

方法详解¶

整体框架¶

MNL 是一个基于后融合（late fusion）的框架，分两阶段训练： - Stage 1（热身阶段）：仅用交叉熵损失优化各模态的目标类预测 - Stage 2（负学习阶段）：在模态性能稳定后引入 MNL 损失，利用强势模态在非目标类上的信息引导弱势模态

关键设计¶

单模态置信度边际（UCoM）：定义为目标类 logit 与最强竞争类 logit 之差 \(\xi_{(m)} = f^{(m)}(x)_y - f^{(m)}(x)_j\)。UCoM 越大表示该模态在区分目标类和竞争类时越可靠。
鲁棒优势模态（RDM）定义：不仅看目标类置信度高，还要求 UCoM 大。这避免了仅凭置信度判断导致的"低 margin 模态引导高 margin 模态"的风险。
动态引导机制：模态优势地位不是固定的，而是逐样本、逐迭代动态判断。当模态1同时满足更高目标类置信度和更大 UCoM 时才引导模态2，反之亦然。
MNL 核心公式：

\[MNL(P^{(RDM)}, P^{(IM)}, \bar{y}) = -\bar{y} \cdot P^{(RDM)} \cdot \log(P^{(IM)})\]

其中 \(\bar{y}\) 在真实类处为 0、非目标类处为 1。关键在于只在非目标类上做引导，且 RDM 的预测被 detach（不回传梯度）。

损失函数 / 训练策略¶

总损失函数：

\[\mathcal{L} = CE(P^{fusion}, y) + \sum_{i=1}^{2} CE(P^{(i)}, y) + \lambda \cdot MNL(P^{(RDM)}, P^{(IM)}, \bar{y})\]

前两项负责目标类的正学习（交叉熵）
第三项负责非目标类的负学习
\(\lambda\) 控制 MNL 强度

理论保证¶

定理 3.1：在双模态后融合中，鲁棒性半径的下界为：

\[R(x_i) \geq \frac{w^{(1)}\xi_{(1)} + w^{(2)}\xi_{(2)}}{\sqrt{(w^{(1)}\tau_{(1)})^2 + (w^{(2)}\tau_{(2)})^2}}\]

即提升各模态的 UCoM 可以直接收紧多模态系统的鲁棒性下界。MNL 正是通过抑制非目标类不确定性来增大 UCoM。

实验关键数据¶

主实验（表格）¶

方法	MVSA (ε=0/5/10)	FOOD101 (ε=0/5/10)	CREMA-D (ε=0/5/10)
LF	76.88/63.46/55.16	90.69/68.49/57.99	68.04/64.25/52.39
LF+MNL	79.50/74.03/63.01	92.77/75.16/62.06	73.71/70.35/57.26
Δ	+2.62/+10.57/+7.85	+2.08/+6.67/+4.06	+5.67/+6.10/+4.87
PDF	79.94/74.40/63.09	93.32/76.47/62.83	67.07/64.57/53.33
PDF+MNL	80.54/74.07/63.78	93.33/76.65/63.16	69.18/66.94/55.43

MNL 对静态融合（LF）提升显著（MVSA ε=5 提升 10.57%），对动态融合（PDF/QMF）提升相对温和但一致。

消融实验（表格）¶

引导策略	Prior	Confident	Robust	MVSA ε=0/5/10
LF 基线	-	-	-	76.88/63.46/55.16
固定先验引导	✓			78.66/72.69/62.77
仅置信度引导		✓		78.74/71.87/59.35
置信度+UCoM		✓	✓	79.50/74.03/63.01

引导范围	All-Class	Non-Target	MVSA ε=0/5/10
全类引导	✓		78.90/72.16/62.52
仅非目标类引导		✓	79.50/74.03/63.01

关键发现¶

MNL 对静态融合的提升远大于动态融合，因为动态融合本身会降低弱模态权重，与 MNL 增大弱模态 margin 的目标存在错位
在 NYU Depth V2 上提升较小，因为两个模态本身差距不大，强模态引导空间有限
非目标类引导（Non-Target）一致优于全类引导（All-Class），验证了"只教弱模态排除错误"比"全面对齐"更有效
动态引导（Confident+Robust）优于固定先验引导，说明模态优势地位确实因样本而异

亮点与洞察¶

范式创新：将多模态融合从"正学习"转向"负学习"，视角新颖且直觉清晰
理论扎实：从鲁棒性下界推导出 UCoM 的重要性，并据此设计了 RDM 定义和 MNL 损失
即插即用：MNL 兼容各种后融合方法，不引入额外推理开销
动态引导：逐样本判断模态优势而非全局固定，更贴合实际

局限与展望¶

目前仅适用于后融合框架，对中间融合和早期融合的扩展尚未探索
仅考虑双模态情况，多模态（>2）场景下 RDM 的选择和引导关系更复杂
当两模态质量接近时（如 NYU Depth V2），MNL 收益有限
动态引导的判断依赖当前 batch 的预测，对极端噪声场景是否稳定需进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ — "负学习"视角在多模态融合中是首创，UCoM 定义和动态引导机制有理论支撑
实验充分度: ⭐⭐⭐⭐ — 4个数据集、多种融合方法、多种噪声类型、充分消融，但缺少大规模视觉-语言模型验证
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，动机图示直观，但符号较多需要仔细跟读
价值: ⭐⭐⭐⭐ — 即插即用的模块化设计有实际应用价值，理论贡献也有参考意义