Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations¶
会议: ICCV 2025
arXiv: 2507.03304
代码: 无
领域: 机器人 / 多模态学习
关键词: 多模态域泛化, 统一表示, 监督对比学习, 信息解耦, Mixup
一句话总结¶
提出URMMDG框架,通过监督对比学习构建跨模态统一表示空间,并利用互信息最小化解耦类别通用信息与模态/域特定信息,将传统单模态域泛化方法(Mixup、JiGen、IBN-Net)有效迁移到多模态域泛化场景,在EPIC-Kitchens和HAC基准上取得SOTA。
研究背景与动机¶
域泛化(DG)旨在让模型从源域训练后在未见目标域上保持鲁棒性能。现有DG方法(数据增强、学习策略、表示学习)在单模态数据上效果显著,但直接迁移到多模态域泛化(MMDG)场景往往效果不佳。
核心问题在于模态异步性:不同模态(视频、音频、光流)的数据分布差异巨大。例如对同样两个类别做Mixup,视频模态的插值可能语义偏向"跑步",而光流模态的插值可能偏向"吃东西"——跨模态的泛化方向不一致,导致联合训练效果劣于单模态独立训练。
作者通过实验量化了这个问题:JiGen在单模态(Video)上提升2.87%,但在三模态联合训练中仅提升1.61%。这说明模态间的内在差异限制了DG方法在MMDG上的直接迁移。
方法详解¶
整体框架¶
URMMDG框架分两步:(1)通过监督对比学习+信息解耦构建统一表示空间;(2)在统一表示上应用DG方法(Mixup/JiGen/IBN-Net),实现跨模态同步增强。
关键设计¶
-
监督对比解耦(Supervised Contrastive Decoupling):
- 对每个模态 \(m\),用两个编码器分别提取通用信息 \(\mathbf{z}_i^m = \Phi^m(\mathbf{x}_i^m)\) 和特定信息 \(\bar{\mathbf{z}}_i^m = \Psi^m(\mathbf{x}_i^m)\)
- 通用信息捕获类别语义(跨模态跨域共享),特定信息捕获域/模态特有特征
- 通过多模态监督对比损失 \(\mathcal{L}_{scl}\) 拉近同类别跨模态样本的通用表示: \(\mathcal{L}_{scl} = \sum_{i \in I} \frac{-1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(\mathbf{z}_i \cdot \mathbf{z}_p / \tau)}{\sum_{a \in A(i)} \exp(\mathbf{z}_i \cdot \mathbf{z}_a / \tau)}\)
- 设计动机:构建模态无关的统一语义空间,使DG方法能在该空间中同步操作所有模态
-
互信息最小化(Mutual Information Minimization):
- 使用CLUB方法最小化通用信息 \(\mathbf{z}_i^m\) 和特定信息 \(\bar{\mathbf{z}}_i^m\) 之间的互信息上界: \(L_{club} = \frac{1}{N} \sum_{i=1}^{N} [\log q_\theta(\bar{\mathbf{z}}_i^m | \mathbf{z}_i^m) - \frac{1}{N} \sum_{j=1}^{N} \log q_\theta(\bar{\mathbf{z}}_j^m | \mathbf{z}_i^m)]\)
- 同时引入重建损失 \(L_{rec} = \|\mathbf{x}_i^m - D(\mathbf{z}_i^m; \bar{\mathbf{z}}_i^m)\|_2^2\) 确保解耦后信息完整性
- 设计动机:确保通用表示仅包含类别语义,不被域/模态噪声污染
-
统一表示上的DG方法迁移:
- UR-Mixup:在通用表示 \(\mathbf{z}^m\) 上做Mixup,生成增强样本后与特定信息拼接送入解码器重建特征,用于分类训练
- UR-JiGen:将通用表示切分为片段,跨模态随机选片拼接后打乱排列,作为跨模态拼图任务
- UR-IBN:在统一表示上直接应用IBN-a规范化(半通道IN+半通道BN)
- 设计动机:在统一空间中操作,所有模态同步增强,避免了各模态独立增强导致的泛化方向分歧
损失函数 / 训练策略¶
总损失为多项加权组合: $\(L = \alpha_1 L_{cls} + \alpha_2 L_{scl} + \alpha_3 L_{club} + \alpha_4 L_{rec}\)$ UR-JiGen额外加入 \(L_{jig}\)(权重设为1)。
实验关键数据¶
主实验(EPIC-Kitchens,Video+Audio+Flow三模态)¶
| 方法 | D2,D3→D1 | D1,D3→D2 | D1,D2→D3 | 平均 |
|---|---|---|---|---|
| Base(VAF) | 54.71 | 67.20 | 61.70 | 61.20 |
| SimMMDG | 62.08 | 66.13 | 64.40 | 64.20 |
| CMRF | 61.84 | 70.13 | 70.12 | 67.36 |
| Mixup(VAF) | 57.95 | 67.95 | 64.37 | 63.42 |
| UR-Mixup | 61.72 | 70.89 | 70.76 | 67.79 |
| UR-JiGen | 62.20 | 71.14 | 67.78 | 67.04 |
消融实验(通过对比验证统一表示的价值)¶
| 配置 | Video | Audio | Flow | V-A-F | 说明 |
|---|---|---|---|---|---|
| Base(V)单模态 | 58.73 | - | - | - | 单模态基线 |
| Base(VAF)多模态 | 57.13 | 37.96 | 56.65 | 61.20 | 多模态联合训练各模态性能下降 |
| JiGen(V) | 61.60 | - | - | - | 单模态DG提升+2.87 |
| JiGen(VAF) | 59.23 | 39.58 | 57.18 | 62.81 | 多模态DG仅提升+1.61 |
| UR-Mixup(VA) | 56.99 | 68.85 | - | 64.77 | 两模态统一表示效果 |
| UR-Mixup(VF) | 64.85 | - | 68.84 | 66.42 | 两模态统一表示效果 |
| UR-Mixup(VAF) | 61.72 | 70.89 | 70.76 | 67.79 | 三模态统一表示最优 |
关键发现¶
- 多模态联合训练时,各单模态性能反而不如独立训练(模态竞争现象),统一表示有效缓解了这一问题
- UR-Mixup和UR-JiGen均大幅超越直接在各模态上应用Mixup/JiGen的结果
- 本方法本质上将MMDG问题转化为统一表示空间中的单模态DG问题,使问题更易处理
- 在HAC数据集上UR-Mixup达到73.40%平均准确率,超过CMRF的72.44%
亮点与洞察¶
- 问题定义清晰:通过Table 1的实验精确量化了"DG方法直接迁移到MMDG效果打折"这个现象
- 方法论贡献大于技术贡献:提出的是一个通用范式——先构建统一表示,再在上面应用任意DG方法——具有很好的扩展性
- UR-JiGen的跨模态拼图设计很巧妙:从不同模态随机选片组合,既融合了多模态信息又保持了自监督任务的难度
局限与展望¶
- 仅在视频+音频+光流三模态上验证,缺少图像+文本等更常见的多模态组合实验
- 统一表示的质量高度依赖对比学习的效果,在模态差异极大时可能效果下降
- 缺少与大规模预训练多模态模型(如CLIP)的对比
- 超参数(\(\alpha_1\) 到 \(\alpha_4\))的敏感性分析不够充分
相关工作与启发¶
- SimMMDG、CMRF是MMDG的先行工作,但未明确提出"统一表示桥接"的范式
- CLUB互信息上界估计技术来自变分推断领域,在此处用于解耦通用/特定信息是合理的选择
- 该方法可启发将更多成熟的单模态技术(如域自适应、数据增强策略)迁移到多模态场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次提出通过统一表示将DG方法系统地桥接到MMDG
- 实验充分度: ⭐⭐⭐⭐ 多种DG方法×多种模态组合,实验设计完整
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,Figure 1很直观
- 价值: ⭐⭐⭐⭐ 提供了MMDG的通用解决范式,有较好的实践指导意义
相关论文¶
- [ICCV 2025] Beyond Losses Reweighting: Empowering Multi-Task Learning via the Generalization Perspective
- [NeurIPS 2025] UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Task Planning
- [ICLR 2026] On the Generalization Capacities of MLLMs for Spatial Intelligence
- [NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
- [ICCV 2025] Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos