跳转至

Minimal Semantic Sufficiency Meets Unsupervised Domain Generalization

会议: NeurIPS 2025
arXiv: 2509.15791
代码: 待确认
领域: 自监督学习 / 域泛化
关键词: 无监督域泛化, 信息解纠缠, 语义充分性, 最小化, Fourier增强

一句话总结

MS-UDG 在无类别标签和域标签的条件下,通过信息解纠缠模块(IDM)将表征分解为语义和变异成分,配合最小语义充分性优化模块(SROM)最大化语义信息同时最小化变异干扰,在 PACS 上达 72.89% 准确率(+1.5% vs CycleMAE),理论证明最小充分语义表征最小化下游贝叶斯错误率。

研究背景与动机

  1. 领域现状:自监督学习(SSL)的表征包含语义和风格/纹理等变异因素。无监督域泛化(UDG)需要在无标签情况下学习跨域的鲁棒表征。
  2. 现有痛点:现有方法要么需要域标签(不实际),要么无法有效区分语义与变异(如 MAE 只做重建不做显式分离),导致域偏移下性能退化。
  3. 核心矛盾:没有类别标签无法直接监督"什么是语义";没有域标签无法显式对齐不同域。需要从信息论角度定义和优化"最小充分语义表征"。
  4. 本文要解决什么? 在无标签无域标签的纯自监督设置下,学习只保留任务相关语义、去除域相关变异的表征。
  5. 切入角度:信息论框架——充分性要求语义表征 \(s\) 保留预测目标所需的全部信息 \(I(s;T) = I(x;T)\);最小性要求 \(s\) 不包含与预测无关的变异信息 \(I(s;v) \to 0\)
  6. 核心 idea 一句话:IDM 将表征分解为语义 \(s\) 和变异 \(v\),SROM 通过互信息最小/最大化实现最小充分语义表征,理论保证最小化贝叶斯错误率。

方法详解

整体框架

输入图像 \(x\) → Fourier 增强生成不同域风格的视图 \((x_1, x_2)\) → ViT 编码器 → 充分表征 \(z\)IDM(两个 MLP 分解为 \(s \oplus v\))→ SROM\(\mathcal{L}_{min}\) 最小化 \(I(s;v)\) + \(\mathcal{L}_{max}\) 最大化 \(I(v;x|S)\) + \(\mathcal{L}_{suff}\) 保证语义充分性)→ 下游微调用 \(s\)

关键设计

  1. 信息解纠缠模块(IDM):
  2. 做什么:将编码器输出的充分表征 \(z\) 分解为语义 \(s\) 和变异 \(v\)
  3. 核心思路:两个并行 MLP 分别投影 \(z\) 得到 \(s\)\(v\),满足 \(z = s \oplus v\)(拼接可恢复 \(z\)
  4. 设计动机:直接在表征空间做解纠缠,不需要额外的编码器或生成模型

  5. 语义表征优化模块(SROM):

  6. 做什么:联合优化三个互信息目标实现最小充分性
  7. 核心思路:\(\mathcal{L}_{min}\)(修改版 InfoNCE)最小化 \(I(s;v)\) 同时最大化 \(I(s_1;s_2)\)——让两个视图的语义一致但与变异无关。\(\mathcal{L}_{max}\)(重建)最大化 \(I(v;x|S)\)——通过解码器 \(D\)\(v\) 重建输入,确保变异成分捕获足够的非语义信息。\(\mathcal{L}_{suff}\)(InfoNCE)保证 \(s\) 包含所有语义信息
  8. 设计动机:三个损失缺一不可——只有 \(\mathcal{L}_{min}\) 会导致 \(s\) 退化为常数;只有 \(\mathcal{L}_{suff}\) 不能排除变异信息;\(\mathcal{L}_{max}\) 防止变异信息泄露到 \(s\)

  9. Fourier 域增强:

  10. 做什么:生成不同域风格的图像视图
  11. 核心思路:在频域中交换低频分量(控制全局风格),模拟域偏移
  12. 设计动机:无域标签时,Fourier 增强提供了一种合理的域变化模拟

损失函数 / 训练策略

  • \(\mathcal{L} = \mathcal{L}_{suff} + \mathcal{L}_{min} + \mathcal{L}_{max}\)
  • ViT-S/16 backbone,lr=1e-4,batch=32,warm-up + 50 epochs
  • 理论保证:Theorem 证明最小充分语义表征最小化贝叶斯错误率上界

实验关键数据

主实验

数据集 标签比例 MS-UDG CycleMAE SimCLR
PACS 100% 72.89% 71.41% 65.30%
DomainNet 1% 34.92%
PACS 1% 56.2% 54.8% 51.3%

消融实验

配置 PACS 准确率
\(\mathcal{L}_{suff}\) 68.5%
+ \(\mathcal{L}_{min}\) 70.8%
+ \(\mathcal{L}_{max}\) 72.89%

关键发现

  • 在所有标签比例(1%/5%/10%/100%)上一致优于 baseline
  • \(\mathcal{L}_{max}\) 的重建损失对防止信息泄露很关键——去掉后降 2%
  • 在 DomainNet 的 6 个域上泛化一致

亮点与洞察

  • 信息论框架的完备性:充分性 + 最小性 = 最优语义表征,理论保证与实验一致
  • 无需域标签:Fourier 增强 + 信息解纠缠绕过了域标签需求
  • 通用框架:IDM + SROM 可插到任何 SSL 方法上

局限性 / 可改进方向

  • 假设语义信息在两个增强视图间完全共享——极端增强可能破坏这一假设
  • Fourier 增强的模拟域偏移能力有限
  • 仅在图像域验证

相关工作与启发

  • vs CycleMAE: CycleMAE 做循环重建但不显式分离语义/变异
  • vs SimCLR: SimCLR 只做对比学习不做解纠缠,表征中混入域信息

评分

  • 新颖性: ⭐⭐⭐⭐ 信息论驱动的无监督域泛化有理论深度
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+多标签比例+消融
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐⭐ 为 UDG 提供了有理论保证的新方法