Towards Multimodal Domain Generalization with Few Labels¶
会议: CVPR 2026
arXiv: 2602.22917
代码: https://github.com/lihongzhao99/SSMDG
领域: 多模态VLM
关键词: 半监督学习, 域泛化, 多模态融合, 伪标签, 跨模态原型对齐
一句话总结¶
定义并研究半监督多模态域泛化(SSMDG)新问题,提出融合一致性驱动伪标签、分歧感知正则化和跨模态原型对齐的统一框架,在少量标注下实现多模态模型的跨域泛化。
研究背景与动机¶
- 领域现状:多模态域泛化(MMDG)假设所有源域数据都有标注;半监督多模态学习(SSML)利用无标注数据但忽略域偏移;半监督域泛化(SSDG)处理域偏移但仅限单模态输入。三个方向各解决部分问题。
- 现有痛点:实际场景中三个挑战同时存在——多模态数据+少量标注+域偏移。MMDG方法无法利用大量无标注数据;SSML方法假设训练和测试分布相同;SSDG方法无法利用跨模态互补性。
- 核心矛盾:(a) 在低置信度和模态间分歧的条件下如何获得可靠伪标签;(b) 在有限监督下如何学习同时对模态和域不变的表示。
- 本文要解决什么:构建SSMDG基准并设计统一框架,同时解决伪标签可靠性和域-模态不变表示学习。
- 切入角度:利用融合预测与单模态预测的共识来筛选可靠伪标签,利用类原型作为跨域跨模态的语义锚点。
- 核心idea一句话:通过共识驱动的伪标签筛选和跨模态原型对齐,在少标注多模态多域数据上实现鲁棒泛化。
方法详解¶
整体框架¶
模型包含模态特定编码器、单模态分类器和融合分类器。训练时从标注和无标注数据的联合池中采样,通过三个互补组件处理:(1) 共识驱动一致性正则化(CDCR);(2) 分歧感知正则化(DAR);(3) 跨模态原型对齐(CMPA)。
关键设计¶
- 共识驱动一致性正则化 (CDCR):
- 做什么:为无标注数据生成可靠伪标签
- 核心思路:只有当融合预测和至少一个单模态预测同时满足高置信度阈值 \(\tau\) 且标签一致时,才采纳伪标签。对满足条件的样本用FixMatch式一致性损失: \(\mathcal{L}_{\text{cdcr}} = \frac{1}{|\mathcal{B}_{\text{cdcr}}^u|}\sum\sum_{n\in\{v,a,f\}}\mathcal{H}(\hat{y}, \hat{p}_n^s)\)
-
设计动机:多视角一致的决策比单一预测更可靠,共识机制自然过滤掉低质量伪标签
-
分歧感知正则化 (DAR):
- 做什么:利用被CDCR排除但仍有价值的"非共识"样本
- 核心思路:对融合高置信但模态间不一致的样本,用广义交叉熵(GCE)损失 \(\mathcal{L}_{\text{GCE}} = (1-p_{\hat{y}}^q)/q\) 替代标准CE,对噪声标签更鲁棒
-
设计动机:非共识样本通常位于决策边界附近,直接丢弃浪费了有价值的信息。GCE的参数 \(q\) 控制对噪声的容忍度
-
跨模态原型对齐 (CMPA):
- 做什么:构建域-模态不变的表示空间
- 核心思路:为每个类别维护可学习的原型向量作为语义锚点,将各域各模态的特征向该类原型对齐。同时训练跨模态翻译网络用于模态缺失场景
- 设计动机:类原型提供了跨域跨模态的稳定参考点,比直接做域对齐或模态对齐更灵活且无需域标签
损失函数 / 训练策略¶
总损失: \(\mathcal{L} = \mathcal{L}_{\text{sup}} + \lambda_1\mathcal{L}_{\text{cdcr}} + \lambda_2\mathcal{L}_{\text{dar}} + \lambda_3\mathcal{L}_{\text{cmpa}}\)。监督损失在标注数据上的融合和单模态预测上均计算。弱增强用标准变换,强增强用RandAugment(视频)+SpecAugment(音频)。
实验关键数据¶
主实验 (5 labels per class)¶
| 方法 | 类型 | HAC Mean | EPIC Mean |
|---|---|---|---|
| Source-only | Baseline | 42.39 | 29.46 |
| SimMMDG | MMDG | 44.39 | 31.11 |
| MDJA | MMDG | 44.28 | 31.51 |
| FixMatch (Video) | SSL | 48.74 | 32.54 |
| CGMatch (Video) | SSL | 49.10 | 33.42 |
| Ours | SSMDG | 55.82 | 38.15 |
消融实验¶
| 配置 | HAC Mean | EPIC Mean |
|---|---|---|
| Baseline | 42.39 | 29.46 |
| + CDCR | 49.15 | 33.80 |
| + CDCR + DAR | 52.30 | 35.90 |
| + CDCR + DAR + CMPA | 55.82 | 38.15 |
| w/o 共识筛选 | 47.20 | 31.50 |
关键发现¶
- SSMDG方法大幅超越所有MMDG方法(+11%),因为后者无法利用无标注数据
- 单模态SSL方法(FixMatch on video)已经超过MMDG方法,凸显利用无标注数据的价值
- CDCR贡献最大(+7%),DAR在此基础上额外贡献3%,CMPA再贡献3%
- 不做共识筛选直接用所有高置信伪标签会降低5%,验证了筛选策略的必要性
- 在模态缺失场景下(只有视频或只有音频),跨模态翻译使性能降级更平缓
亮点与洞察¶
- 问题定义的前瞻性:将三个独立研究的挑战统一为SSMDG,建立了首个基准。三线汇合的交叉点确实是未被探索但实际需要的设置。
- 共识驱动伪标签:不同于单纯依赖融合预测的阈值筛选,加入模态间一致性验证进一步提升可靠性,是多模态半监督学习的自然且有效创新。
- GCE对非共识样本的使用:没有简单丢弃不确定样本,而是用噪声鲁棒损失温和利用,体现了"宁可部分利用也不浪费"的设计哲学。
局限性 / 可改进方向¶
- 仅在视频-音频双模态上验证,视觉-语言或三模态场景有待探索
- 阈值 \(\tau\) 在所有域上统一,域自适应阈值可能更好
- 类原型用简单平均更新,动量更新或注意力加权可能改善
- 未在large-scale数据集(如大规模视频分类)上验证可扩展性
相关工作与启发¶
- vs SimMMDG:SimMMDG用全标注数据做跨模态对齐;本文在少标注下通过伪标签+原型对齐实现同样目标,更实用
- vs FixMatch:FixMatch是单模态SSL的标准方法;本文的CDCR利用多模态共识产生更可靠伪标签
评分¶
- 新颖性: ⭐⭐⭐⭐ 新问题定义+合理的统一框架
- 实验充分度: ⭐⭐⭐⭐ 两个基准、多种baseline对比,模态缺失实验增添了价值
- 写作质量: ⭐⭐⭐⭐ 问题定义和方法描述清晰
- 价值: ⭐⭐⭐⭐ 填补了三线交叉未被探索的空白,基准有社区价值