Unbiased Dynamic Multimodal Fusion¶

会议: CVPR 2026
arXiv: 2603.19681
代码: https://github.com/shicaiwei123/UDML
领域: 多模态VLM / 多模态融合
关键词: 动态多模态融合, 不确定性估计, 模态依赖偏差, 噪声感知, 双重抑制

一句话总结¶

UDML 提出无偏动态多模态学习框架，包含噪声感知不确定性估计器（通过注入可控噪声并预测其强度来实现在低噪和高噪条件下均准确的模态质量评估）和模态依赖计算器（通过 Dropout 量化模型对各模态的固有依赖偏差并融入加权机制），解决了现有方法的双重抑制问题，在多个多模态基准上一致提升性能。

领域现状：动态多模态学习根据输入数据的模态质量动态调整各模态的贡献权重，主要有基于先验的方法和基于不确定性的方法。
现有痛点：(1) 不确定性估计偏差：现有经验度量（如能量分数、概率嵌入）在低噪时不敏感（无法检测轻微退化），在高噪时仍给严重损坏的模态分配不可忽略的权重；(2) 双重抑制效应：现有方法假设各模态初始贡献相同，忽视了模型优化过程中产生的模态依赖偏差——难学的模态既被优化偏差抑制，又被高不确定性二次抑制。
核心矛盾：双重抑制导致动态融合反而不如静态融合，这与动态融合的设计初衷矛盾。
本文目标：设计一种在各噪声水平下都准确的不确定性估计器，同时量化并补偿模态依赖偏差。
切入角度：主动注入已知噪声来建立特征损坏与噪声强度的清晰对应关系；用模态 Dropout 量化固有依赖。
核心 idea：噪声感知估计 + 偏差补偿的双管齐下策略。

UDML 是架构无关的通用框架，包含两个核心组件：(1) 噪声感知不确定性估计器，注入可控噪声后从特征预测噪声强度；(2) 模态依赖计算器，通过 Dropout 量化模型对各模态的依赖程度。两者共同决定动态融合权重。

噪声感知不确定性估计器:
- 功能：在所有噪声水平（从无噪声到严重损坏）下准确测量模态质量
- 核心思路：训练时向模态数据注入已知强度的可控噪声，然后从编码特征预测噪声强度。引入概率表示技术：将每个模态映射为分布（均值编码语义信息，方差反映噪声特性），估计器从方差推导噪声强度。这建立了特征损坏与噪声水平之间的直接监督信号
- 设计动机：经验度量（能量分数、概率嵌入）缺乏对噪声的直接监督，噪声感知估计器通过显式的噪声预测任务建立准确的对应关系
模态依赖计算器:
- 功能：量化多模态网络对各模态的固有依赖偏差并补偿
- 核心思路：通过模态 Dropout 量化输出对各模态的依赖程度 \(\alpha^m\)，将依赖度融入权重计算：\(w_i^{m_1} = g(\frac{1}{s(z_i^{m_1}) \cdot \alpha^{m_1}})\)。高依赖度的模态不会被不确定性过度惩罚，低依赖度的难学模态也不会被双重抑制
- 设计动机：消除"优化偏差 + 高不确定性"导致的难学模态双重抑制
渐进优化策略:
- 功能：在标准训练流程中同时学习多模态表示、噪声估计和主任务
- 核心思路：渐进式训练，先稳定多模态表示，再逐步引入噪声感知估计和依赖补偿
- 设计动机：避免多个学习目标之间的干扰

总损失 = 主任务损失（分类/检测等）+ 噪声预测损失（MSE）+ KL 散度正则化（概率表示）。

数据集	任务	静态融合	动态(PE)	UDML	提升 vs 动态
CREMA-D	音视频分类	67.2	65.8	71.5	+5.7
Kinetics-Sound	音视频分类	64.1	63.5	66.8	+3.3
NYU Depth v2	RGB-D分割	51.2	50.8	53.1	+2.3

注意：在 CREMA-D 上，PE 动态融合(65.8)反而低于静态融合(67.2)，验证了双重抑制问题的存在。UDML 显著解决了此问题。