Towards Multimodal Domain Generalization with Few Labels¶

会议: CVPR 2026
arXiv: 2602.22917
代码: https://github.com/lihongzhao99/SSMDG
领域: 多模态VLM
关键词: 半监督学习, 域泛化, 多模态融合, 伪标签, 跨模态原型对齐

一句话总结¶

定义并研究半监督多模态域泛化(SSMDG)新问题，提出融合一致性驱动伪标签、分歧感知正则化和跨模态原型对齐的统一框架，在少量标注下实现多模态模型的跨域泛化。

研究背景与动机¶

领域现状：多模态域泛化(MMDG)假设所有源域数据都有标注；半监督多模态学习(SSML)利用无标注数据但忽略域偏移；半监督域泛化(SSDG)处理域偏移但仅限单模态输入。三个方向各解决部分问题。
现有痛点：实际场景中三个挑战同时存在——多模态数据+少量标注+域偏移。MMDG方法无法利用大量无标注数据；SSML方法假设训练和测试分布相同；SSDG方法无法利用跨模态互补性。
核心矛盾：(a) 在低置信度和模态间分歧的条件下如何获得可靠伪标签；(b) 在有限监督下如何学习同时对模态和域不变的表示。
本文要解决什么：构建SSMDG基准并设计统一框架，同时解决伪标签可靠性和域-模态不变表示学习。
切入角度：利用融合预测与单模态预测的共识来筛选可靠伪标签，利用类原型作为跨域跨模态的语义锚点。
核心idea一句话：通过共识驱动的伪标签筛选和跨模态原型对齐，在少标注多模态多域数据上实现鲁棒泛化。

方法详解¶

整体框架¶

模型包含模态特定编码器、单模态分类器和融合分类器。训练时从标注和无标注数据的联合池中采样，通过三个互补组件处理：(1) 共识驱动一致性正则化(CDCR)；(2) 分歧感知正则化(DAR)；(3) 跨模态原型对齐(CMPA)。

关键设计¶

共识驱动一致性正则化 (CDCR)：
做什么：为无标注数据生成可靠伪标签
核心思路：只有当融合预测和至少一个单模态预测同时满足高置信度阈值 \(\tau\) 且标签一致时，才采纳伪标签。对满足条件的样本用FixMatch式一致性损失: \(\mathcal{L}_{\text{cdcr}} = \frac{1}{|\mathcal{B}_{\text{cdcr}}^u|}\sum\sum_{n\in\{v,a,f\}}\mathcal{H}(\hat{y}, \hat{p}_n^s)\)
设计动机：多视角一致的决策比单一预测更可靠，共识机制自然过滤掉低质量伪标签
分歧感知正则化 (DAR)：
做什么：利用被CDCR排除但仍有价值的"非共识"样本
核心思路：对融合高置信但模态间不一致的样本，用广义交叉熵(GCE)损失 \(\mathcal{L}_{\text{GCE}} = (1-p_{\hat{y}}^q)/q\) 替代标准CE，对噪声标签更鲁棒
设计动机：非共识样本通常位于决策边界附近，直接丢弃浪费了有价值的信息。GCE的参数 \(q\) 控制对噪声的容忍度
跨模态原型对齐 (CMPA)：
做什么：构建域-模态不变的表示空间
核心思路：为每个类别维护可学习的原型向量作为语义锚点，将各域各模态的特征向该类原型对齐。同时训练跨模态翻译网络用于模态缺失场景
设计动机：类原型提供了跨域跨模态的稳定参考点，比直接做域对齐或模态对齐更灵活且无需域标签

损失函数 / 训练策略¶

总损失: \(\mathcal{L} = \mathcal{L}_{\text{sup}} + \lambda_1\mathcal{L}_{\text{cdcr}} + \lambda_2\mathcal{L}_{\text{dar}} + \lambda_3\mathcal{L}_{\text{cmpa}}\)。监督损失在标注数据上的融合和单模态预测上均计算。弱增强用标准变换，强增强用RandAugment(视频)+SpecAugment(音频)。

实验关键数据¶

主实验 (5 labels per class)¶

方法	类型	HAC Mean	EPIC Mean
Source-only	Baseline	42.39	29.46
SimMMDG	MMDG	44.39	31.11
MDJA	MMDG	44.28	31.51
FixMatch (Video)	SSL	48.74	32.54
CGMatch (Video)	SSL	49.10	33.42
Ours	SSMDG	55.82	38.15

消融实验¶

配置	HAC Mean	EPIC Mean
Baseline	42.39	29.46
+ CDCR	49.15	33.80
+ CDCR + DAR	52.30	35.90
+ CDCR + DAR + CMPA	55.82	38.15
w/o 共识筛选	47.20	31.50

关键发现¶

SSMDG方法大幅超越所有MMDG方法（+11%），因为后者无法利用无标注数据
单模态SSL方法（FixMatch on video）已经超过MMDG方法，凸显利用无标注数据的价值
CDCR贡献最大（+7%），DAR在此基础上额外贡献3%，CMPA再贡献3%
不做共识筛选直接用所有高置信伪标签会降低5%，验证了筛选策略的必要性
在模态缺失场景下（只有视频或只有音频），跨模态翻译使性能降级更平缓

亮点与洞察¶

问题定义的前瞻性：将三个独立研究的挑战统一为SSMDG，建立了首个基准。三线汇合的交叉点确实是未被探索但实际需要的设置。
共识驱动伪标签：不同于单纯依赖融合预测的阈值筛选，加入模态间一致性验证进一步提升可靠性，是多模态半监督学习的自然且有效创新。
GCE对非共识样本的使用：没有简单丢弃不确定样本，而是用噪声鲁棒损失温和利用，体现了"宁可部分利用也不浪费"的设计哲学。

局限性 / 可改进方向¶

仅在视频-音频双模态上验证，视觉-语言或三模态场景有待探索
阈值 \(\tau\) 在所有域上统一，域自适应阈值可能更好
类原型用简单平均更新，动量更新或注意力加权可能改善
未在large-scale数据集（如大规模视频分类）上验证可扩展性

评分¶

新颖性: ⭐⭐⭐⭐ 新问题定义+合理的统一框架
实验充分度: ⭐⭐⭐⭐ 两个基准、多种baseline对比，模态缺失实验增添了价值
写作质量: ⭐⭐⭐⭐ 问题定义和方法描述清晰
价值: ⭐⭐⭐⭐ 填补了三线交叉未被探索的空白，基准有社区价值