Balancing Multimodal Domain Generalization via Gradient Modulation and Projection¶
日期: 2026-03-15
arXiv: 2603.14175
领域: 视频理解 / 多模态VLM
关键词: multimodal domain generalization, gradient modulation, gradient projection, video-audio
一句话总结¶
提出 GMP 策略,通过 IGDM 解耦分类/域不变梯度并用语义+域信心调制 + CAGP 检测梯度冲突并投影到无冲突方向,在 EPIC-Kitchens 视频-音频跨域泛化中目标域提升 2.3%(传统方法仅 ±0.65%)。
研究背景与动机¶
-
领域现状: 多模态域泛化要求模型在训练域学习的特征能泛化到未见目标域。但不同模态优化速度不同(如视频学得快、音频学得慢),简单合并梯度导致弱模态被压制。
-
现有痛点: 现有方法(OGM-GE 等)在源域上平衡模态,但忽略了泛化目标——源域上最好的模态平衡不一定在目标域最好。且分类梯度与域不变性梯度可能冲突。
-
核心 idea: 将梯度分解为分类梯度和域不变梯度两个子空间,分别用语义信心和域信心调制强度;检测两类梯度间的冲突并投影到无冲突方向。
方法详解¶
整体框架¶
多模态输入 → 各模态编码器 → 分类头+域判别头 → 梯度反传时 IGDM 调制 + CAGP 投影 → 更新参数。
关键设计¶
-
Inter-Modality Gradient Decoupled Modulation (IGDM):
- 做什么:分离并独立调制分类和域不变性梯度
- 核心思路:对每个模态 \(m\),分类梯度 \(g_c^m\) 用语义信心比 \(\rho_t^m\) 调制,域不变梯度 \(g_d^m\) 用域信心比 \(\sigma_t^m\) 调制。调制系数 \(k_t^m = 1 - \tanh(\alpha_k \cdot \rho_t^m)\)(当 \(\rho_t^m > 1\) 时抑制强模态的分类梯度),域侧类似
- 设计动机:传统方法用统一指标(如分类准确率)平衡模态,但忽略了分类强的模态可能域泛化弱。IGDM 分别评估两个维度
-
Conflict-Adaptive Gradient Projection (CAGP):
- 做什么:消除分类梯度与域不变梯度之间的冲突
- 核心思路:当 \(\hat{g}_c^m \cdot \hat{g}_d^m < 0\) 时检测到冲突,用任务强度比 \(\Gamma_t^m = \rho_t^m / \sigma_t^m\) 判断强弱,将强任务梯度投影到弱任务梯度的正交补空间: \(\tilde{g}_c^m = \hat{g}_c^m - \frac{\hat{g}_c^m \cdot \hat{g}_d^m}{\|\hat{g}_d^m\|^2} \hat{g}_d^m\)
- 设计动机:保护弱任务的完整梯度方向——如果分类已经很好但域泛化差,应保护域泛化梯度
实验关键数据¶
主实验:EPIC-Kitchens + HAC 跨域泛化¶
| 方法 | EPIC-Kitchens (Target)↑ | HAC (Target)↑ |
|---|---|---|
| Base (视频+音频) | 55.06 | 61.86 |
| Grad-Blending | 55.49 | 62.66 |
| OGM-GE | 55.71 | 62.83 |
| AGM | 55.39 | 62.16 |
| CGGM | 55.30 | 62.80 |
| GMP (Ours) | 57.36 | 64.91 |
消融实验¶
| 配置 | EPIC-Kitchens | HAC |
|---|---|---|
| Base (无 GMP) | 55.06 | 61.86 |
| IGDM only | 55.98 | 63.05 |
| CAGP only | 55.34 | 63.41 |
| Full GMP | 57.36 | 64.91 |
| Unified Modulation (不解耦) | 54.97 | 62.50 |
| w/o \(k_t^m\) (无语义信心) | 55.19 | 62.33 |
| w/o \(p_t^m\) (无域信心) | 55.70 | 62.29 |
| PCGrad (替代 CAGP) | 54.33 | 62.64 |
| Reverse CAGP (保护强任务) | 54.00 | 62.57 |
关键发现¶
- IGDM + CAGP 互补: 各自独立提升 ~1%,组合后提升 ~2.3%
- 解耦调制 vs 统一调制: 统一调制反而不如 Base——说明分类和域泛化需要不同的调制策略
- Reverse CAGP 效果差: 保护强任务而非弱任务 → 训练失衡加剧,验证了"保护弱任务"的设计合理性
- 单模态表现恢复: GMP 下视频 52.33% (vs 独立训练 54.98%),差距从 6.12% 缩小到 2.65%
- t-SNE: GMP 后类间分离更清晰,源域和目标域特征对齐更好
| 基础方法 | EPIC-Kitchens | + GMP |
|---|---|---|
| RNA-Net | 60.31 | 62.23 (+1.92) |
| SimMMDG | 60.81 | 62.33 (+1.52) |
关键发现¶
- 源域准确率保持不变的同时目标域显著改善——GMP 不牺牲源域表现
- 单模态基线:视频 53.88% vs 音频 44.11%——模态差距大,GMP 有效平衡了弱模态(音频)的学习
- GMP 作为训练策略可叠加到现有 MMDG 方法上,一致带来 1.4-2.2% 额外提升
亮点与洞察¶
- "源域好 ≠ 目标域好"的洞察:现有梯度平衡方法优化源域表现,但泛化需要不同的梯度策略
- 梯度空间的精细操作:分解+调制+投影的三步处理让训练动力学更可控
- 即插即用:GMP 作为训练策略不依赖特定架构
相关工作对比¶
- vs OGM-GE: 仅基于分类梯度比调节模态贡献,在目标域仅 +0.65%;GMP 解耦后分别调制,+2.30%
- vs PCGrad: 统一梯度投影不区分模态,EPIC-Kitchens 上 54.33% 反而不如基线 55.06%
- vs BALGRAD: 通过对齐减少模态间差异,但忽略域不变性目标,效果有限
相关工作对比¶
- vs OGM-GE: 仅基于分类梯度比调节模态贡献,在目标域仅 +0.65%;GMP 解耦后分别调制,+2.30%
- vs PCGrad: 统一梯度投影不区分模态,EPIC-Kitchens 上 54.33% 反而不如基线 55.06%
- vs BALGRAD: 通过对齐减少模态间差异,但忽略域不变性目标,效果有限
局限性 / 可改进方向¶
- 仅在 2 个视频-音频数据集验证,更多模态组合(图文、视频文本)待测
- 域信心估计依赖域判别头,其准确性影响调制效果
- 梯度投影的计算开销随模态数增加而增长
- 源域与目标域差距极大时(如完全不同的场景)效果待验证
评分¶
- 新颖性: ⭐⭐⭐⭐ 梯度解耦调制+冲突投影的组合新颖
- 实验充分度: ⭐⭐⭐ 数据集有限
- 价值: ⭐⭐⭐ 多模态域泛化的 niche 领域但方法可推广