Balancing Multimodal Domain Generalization via Gradient Modulation and Projection¶

日期: 2026-03-15
arXiv: 2603.14175
领域: 视频理解 / 多模态VLM
关键词: multimodal domain generalization, gradient modulation, gradient projection, video-audio

一句话总结¶

提出 GMP 策略，通过 IGDM 解耦分类/域不变梯度并用语义+域信心调制 + CAGP 检测梯度冲突并投影到无冲突方向，在 EPIC-Kitchens 视频-音频跨域泛化中目标域提升 2.3%（传统方法仅 ±0.65%）。

研究背景与动机¶

领域现状: 多模态域泛化要求模型在训练域学习的特征能泛化到未见目标域。但不同模态优化速度不同（如视频学得快、音频学得慢），简单合并梯度导致弱模态被压制。
现有痛点: 现有方法（OGM-GE 等）在源域上平衡模态，但忽略了泛化目标——源域上最好的模态平衡不一定在目标域最好。且分类梯度与域不变性梯度可能冲突。
核心 idea: 将梯度分解为分类梯度和域不变梯度两个子空间，分别用语义信心和域信心调制强度；检测两类梯度间的冲突并投影到无冲突方向。

方法详解¶

整体框架¶

多模态输入 → 各模态编码器 → 分类头+域判别头 → 梯度反传时 IGDM 调制 + CAGP 投影 → 更新参数。

关键设计¶

Inter-Modality Gradient Decoupled Modulation (IGDM):
- 做什么：分离并独立调制分类和域不变性梯度
- 核心思路：对每个模态 \(m\)，分类梯度 \(g_c^m\) 用语义信心比 \(\rho_t^m\) 调制，域不变梯度 \(g_d^m\) 用域信心比 \(\sigma_t^m\) 调制。调制系数 \(k_t^m = 1 - \tanh(\alpha_k \cdot \rho_t^m)\)（当 \(\rho_t^m > 1\) 时抑制强模态的分类梯度），域侧类似
- 设计动机：传统方法用统一指标（如分类准确率）平衡模态，但忽略了分类强的模态可能域泛化弱。IGDM 分别评估两个维度
Conflict-Adaptive Gradient Projection (CAGP):
- 做什么：消除分类梯度与域不变梯度之间的冲突
- 核心思路：当 \(\hat{g}_c^m \cdot \hat{g}_d^m < 0\) 时检测到冲突，用任务强度比 \(\Gamma_t^m = \rho_t^m / \sigma_t^m\) 判断强弱，将强任务梯度投影到弱任务梯度的正交补空间: \(\tilde{g}_c^m = \hat{g}_c^m - \frac{\hat{g}_c^m \cdot \hat{g}_d^m}{\|\hat{g}_d^m\|^2} \hat{g}_d^m\)
- 设计动机：保护弱任务的完整梯度方向——如果分类已经很好但域泛化差，应保护域泛化梯度

实验关键数据¶

主实验：EPIC-Kitchens + HAC 跨域泛化¶

方法	EPIC-Kitchens (Target)↑	HAC (Target)↑
Base (视频+音频)	55.06	61.86
Grad-Blending	55.49	62.66
OGM-GE	55.71	62.83
AGM	55.39	62.16
CGGM	55.30	62.80
GMP (Ours)	57.36	64.91

消融实验¶

配置	EPIC-Kitchens	HAC
Base (无 GMP)	55.06	61.86
IGDM only	55.98	63.05
CAGP only	55.34	63.41
Full GMP	57.36	64.91
Unified Modulation (不解耦)	54.97	62.50
w/o \(k_t^m\) (无语义信心)	55.19	62.33
w/o \(p_t^m\) (无域信心)	55.70	62.29
PCGrad (替代 CAGP)	54.33	62.64
Reverse CAGP (保护强任务)	54.00	62.57

关键发现¶

IGDM + CAGP 互补: 各自独立提升 ~1%，组合后提升 ~2.3%
解耦调制 vs 统一调制: 统一调制反而不如 Base——说明分类和域泛化需要不同的调制策略
Reverse CAGP 效果差: 保护强任务而非弱任务 → 训练失衡加剧，验证了"保护弱任务"的设计合理性
单模态表现恢复: GMP 下视频 52.33% (vs 独立训练 54.98%)，差距从 6.12% 缩小到 2.65%
t-SNE: GMP 后类间分离更清晰，源域和目标域特征对齐更好

基础方法	EPIC-Kitchens	+ GMP
RNA-Net	60.31	62.23 (+1.92)
SimMMDG	60.81	62.33 (+1.52)

关键发现¶

源域准确率保持不变的同时目标域显著改善——GMP 不牺牲源域表现
单模态基线：视频 53.88% vs 音频 44.11%——模态差距大，GMP 有效平衡了弱模态（音频）的学习
GMP 作为训练策略可叠加到现有 MMDG 方法上，一致带来 1.4-2.2% 额外提升

亮点与洞察¶

"源域好 ≠ 目标域好"的洞察：现有梯度平衡方法优化源域表现，但泛化需要不同的梯度策略
梯度空间的精细操作：分解+调制+投影的三步处理让训练动力学更可控
即插即用：GMP 作为训练策略不依赖特定架构

局限性 / 可改进方向¶

仅在 2 个视频-音频数据集验证，更多模态组合（图文、视频文本）待测
域信心估计依赖域判别头，其准确性影响调制效果
梯度投影的计算开销随模态数增加而增长
源域与目标域差距极大时（如完全不同的场景）效果待验证

评分¶

新颖性: ⭐⭐⭐⭐ 梯度解耦调制+冲突投影的组合新颖
实验充分度: ⭐⭐⭐ 数据集有限
价值: ⭐⭐⭐ 多模态域泛化的 niche 领域但方法可推广

Balancing Multimodal Domain Generalization via Gradient Modulation and Projection¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验：EPIC-Kitchens + HAC 跨域泛化¶

消融实验¶

关键发现¶

关键发现¶

亮点与洞察¶

相关工作对比¶

相关工作对比¶

局限性 / 可改进方向¶

评分¶