Minimal Semantic Sufficiency Meets Unsupervised Domain Generalization¶

会议: NeurIPS 2025
arXiv: 2509.15791
代码: 待确认
领域: 自监督学习 / 域泛化
关键词: 无监督域泛化, 信息解纠缠, 语义充分性, 最小化, Fourier增强

一句话总结¶

MS-UDG 在无类别标签和域标签的条件下，通过信息解纠缠模块（IDM）将表征分解为语义和变异成分，配合最小语义充分性优化模块（SROM）最大化语义信息同时最小化变异干扰，在 PACS 上达 72.89% 准确率（+1.5% vs CycleMAE），理论证明最小充分语义表征最小化下游贝叶斯错误率。

研究背景与动机¶

领域现状：自监督学习（SSL）的表征包含语义和风格/纹理等变异因素。无监督域泛化（UDG）需要在无标签情况下学习跨域的鲁棒表征。
现有痛点：现有方法要么需要域标签（不实际），要么无法有效区分语义与变异（如 MAE 只做重建不做显式分离），导致域偏移下性能退化。
核心矛盾：没有类别标签无法直接监督"什么是语义"；没有域标签无法显式对齐不同域。需要从信息论角度定义和优化"最小充分语义表征"。
本文要解决什么？ 在无标签无域标签的纯自监督设置下，学习只保留任务相关语义、去除域相关变异的表征。
切入角度：信息论框架——充分性要求语义表征 \(s\) 保留预测目标所需的全部信息 \(I(s;T) = I(x;T)\)；最小性要求 \(s\) 不包含与预测无关的变异信息 \(I(s;v) \to 0\)。
核心 idea 一句话：IDM 将表征分解为语义 \(s\) 和变异 \(v\)，SROM 通过互信息最小/最大化实现最小充分语义表征，理论保证最小化贝叶斯错误率。

方法详解¶

整体框架¶

输入图像 \(x\) → Fourier 增强生成不同域风格的视图 \((x_1, x_2)\) → ViT 编码器 → 充分表征 \(z\) → IDM（两个 MLP 分解为 \(s \oplus v\)）→ SROM（\(\mathcal{L}_{min}\) 最小化 \(I(s;v)\) + \(\mathcal{L}_{max}\) 最大化 \(I(v;x|S)\) + \(\mathcal{L}_{suff}\) 保证语义充分性）→ 下游微调用 \(s\)

关键设计¶

信息解纠缠模块（IDM）:
做什么：将编码器输出的充分表征 \(z\) 分解为语义 \(s\) 和变异 \(v\)
核心思路：两个并行 MLP 分别投影 \(z\) 得到 \(s\) 和 \(v\)，满足 \(z = s \oplus v\)（拼接可恢复 \(z\)）
设计动机：直接在表征空间做解纠缠，不需要额外的编码器或生成模型
语义表征优化模块（SROM）:
做什么：联合优化三个互信息目标实现最小充分性
核心思路：\(\mathcal{L}_{min}\)（修改版 InfoNCE）最小化 \(I(s;v)\) 同时最大化 \(I(s_1;s_2)\)——让两个视图的语义一致但与变异无关。\(\mathcal{L}_{max}\)（重建）最大化 \(I(v;x|S)\)——通过解码器 \(D\) 从 \(v\) 重建输入，确保变异成分捕获足够的非语义信息。\(\mathcal{L}_{suff}\)（InfoNCE）保证 \(s\) 包含所有语义信息
设计动机：三个损失缺一不可——只有 \(\mathcal{L}_{min}\) 会导致 \(s\) 退化为常数；只有 \(\mathcal{L}_{suff}\) 不能排除变异信息；\(\mathcal{L}_{max}\) 防止变异信息泄露到 \(s\)
Fourier 域增强:
做什么：生成不同域风格的图像视图
核心思路：在频域中交换低频分量（控制全局风格），模拟域偏移
设计动机：无域标签时，Fourier 增强提供了一种合理的域变化模拟

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{suff} + \mathcal{L}_{min} + \mathcal{L}_{max}\)
ViT-S/16 backbone，lr=1e-4，batch=32，warm-up + 50 epochs
理论保证：Theorem 证明最小充分语义表征最小化贝叶斯错误率上界

实验关键数据¶

主实验¶

数据集	标签比例	MS-UDG	CycleMAE	SimCLR
PACS	100%	72.89%	71.41%	65.30%
DomainNet	1%	34.92%	—	—
PACS	1%	56.2%	54.8%	51.3%

消融实验¶

配置	PACS 准确率
仅 \(\mathcal{L}_{suff}\)	68.5%
+ \(\mathcal{L}_{min}\)	70.8%
+ \(\mathcal{L}_{max}\)	72.89%

关键发现¶

在所有标签比例（1%/5%/10%/100%）上一致优于 baseline
\(\mathcal{L}_{max}\) 的重建损失对防止信息泄露很关键——去掉后降 2%
在 DomainNet 的 6 个域上泛化一致

亮点与洞察¶

信息论框架的完备性：充分性 + 最小性 = 最优语义表征，理论保证与实验一致
无需域标签：Fourier 增强 + 信息解纠缠绕过了域标签需求
通用框架：IDM + SROM 可插到任何 SSL 方法上

局限性 / 可改进方向¶

假设语义信息在两个增强视图间完全共享——极端增强可能破坏这一假设
Fourier 增强的模拟域偏移能力有限
仅在图像域验证

评分¶

新颖性: ⭐⭐⭐⭐ 信息论驱动的无监督域泛化有理论深度
实验充分度: ⭐⭐⭐⭐ 多数据集+多标签比例+消融
写作质量: ⭐⭐⭐⭐ 理论推导严谨
价值: ⭐⭐⭐⭐ 为 UDG 提供了有理论保证的新方法