跳转至

Aggregation Hides OOD Generalization Failures from Spurious Correlations

会议: NeurIPS 2025
arXiv: 2510.24884
代码: https://github.com/olawalesalaudeen/OODSELECT
领域: OOD 泛化 / 鲁棒性
关键词: OOD泛化, 虚假相关, 聚合偏差, accuracy-on-the-line, 子集分析

一句话总结

揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line(ID 与 OOD 准确率正相关),但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集(最高达 75%),这些子集上 ID 越高 OOD 反而越低(Pearson R 低至 -0.92),证明虚假相关的危害被聚合评估系统性隐藏。

研究背景与动机

  1. 领域现状:OOD 泛化领域观察到 accuracy-on-the-line(AoTL)——在 DomainBed/WILDS benchmark 上,ID 高的模型 OOD 也高。这常被解读为虚假相关不严重。

  2. 现有痛点:(a)AoTL 仅在聚合所有 OOD 样本后成立;(b)大子群体对虚假特征敏感时,其效应被"正常"样本稀释;(c)现有子集发现方法需显式分组元数据。

  3. 核心矛盾:AoTL 被视为好消息,但可能是聚合假象——在某些子群上,提升 ID 的模型恰恰更依赖虚假特征,OOD 反而更差。

  4. 本文要解决什么? 证明聚合评估掩蔽了虚假相关的危害,并提供发现被掩蔽失败子集的方法。

  5. 切入角度:将 OOD 子集选择建模为优化问题——最小化选定子集上 ID-OOD 的 Pearson 相关系数。

  6. 核心 idea 一句话:梯度优化从 OOD 数据中选出 accuracy-on-the-inverse-line 子集,揭示被聚合掩蔽的泛化失败。

方法详解

整体框架

给定 \(N\) 个模型和 \(d\) 个 OOD 样本,构建正确分类矩阵 \(\mathbf{Z} \in \{0,1\}^{N \times d}\)。学习选择向量 \(\mathbf{s} \in [0,1]^d\)(sigmoid 松弛)使选定子集上的 ID-OOD 相关性最小化,用 Adam 优化器求解。

关键设计

  1. OODSelect 优化:
  2. 做什么:从 OOD 数据中选出使 ID-OOD 相关性最负的子集
  3. 核心思路:将离散选择松弛为连续变量,优化 \(\min_{\mathbf{s}} \text{corr}(\text{acc}_{ID}, \text{acc}^s_{OOD}) + \lambda(S - \|\mathbf{s}\|_1)^2\)。使用余弦退火调度。模型分训练/验证/测试集避免过拟合
  4. 设计动机:目标函数非凸非子模(定理证明),贪心不可行;但 Lipschitz 连续性保证梯度下降稳定收敛

  5. 多层次验证:

  6. 做什么:确保发现的子集反映真实虚假相关而非采样噪声
  7. 核心思路:(a)与随机选择对比(始终正相关);(b)与"最易误分类"对比(相关性近0但不为负);(c)Spearman 秩相关排除异常值;(d)跨架构验证(ResNet vs ViT 分离)
  8. 设计动机:负相关可能有多种解释,需系统排除

  9. 选择一致性验证:

  10. 做什么:确认不同大小子集是否语义连贯
  11. 核心思路:对不同子集大小 \(S\) 独立选择,计算归一化 Jaccard Index——小子集几乎是大子集的子集
  12. 设计动机:如果选择不一致说明只是优化噪声

损失函数 / 训练策略

  • 优化:Adam + 余弦退火
  • 模型三重分割:训练模型(学选择)、验证模型、测试模型(完全不重叠)
  • 每个数据集训练数百到数千个模型

实验关键数据

主实验

数据集 完整OOD R 最大OODSelect R 子集占比 模型数
CXR No Finding +0.86 -0.60 75% 1800
TerraIncognita +0.89 -0.77 25% 2980
VLCS +0.62 -0.92 30% 4200
WILDSCamelyon-H5 +0.74 <-0.3 40% 944
WILDSCivilComments +0.81 <-0.3 50% 710
PACS +0.81 -0.33 6% 2804

消融对比

选择方法 CXR R VLCS R 说明
随机选择 +0.85 +0.61 始终正相关
最易误分类 ~0 ~0 弱相关但不为负
CLIP距离选择 +0.52 -0.10 无法发现深层虚假相关
OODSelect -0.60 -0.92 发现虚假相关驱动的子集

关键发现

  • CXR 中 75% OOD 数据受虚假相关影响——聚合后 R 从 -0.60 变成 +0.86 完全因为 25% 干净样本的稀释
  • 虚假相关不等于样本困难:最难样本 R~0,OODSelect 样本 R<0——两者本质不同
  • CXR 语义连贯:OODSelect 子集富含 Pleural Other 和 Support Devices——已知虚假预测因子
  • 跨架构一致:ResNet 选出子集在 ViT 上仍显示负相关
  • VLM 不一定鲁棒:VLM 零样本的 ID-OODSelect 仍正相关(两侧对 VLM 都是 OOD)

亮点与洞察

  • "聚合掩蔽"是对 OOD 评估方法论的根本性挑战——不仅对 AoTL 的"好消息"打了问号,还提示所有聚合指标的 OOD benchmark 可能系统性低估虚假相关的危害
  • OODSelect 的哲学:不是"找最难的样本"而是"找虚假相关导致的失败样本"——全新评估视角
  • 75% CXR OOD 受影响——在医学影像中仅看聚合准确率完全不可靠

局限性 / 可改进方向

  • 需训练数千个模型(计算昂贵,但一次性成本)——已开源所有选择结果
  • 语义解释困难:histopathology 图像等难以用自然语言解释
  • 非凸优化无法保证全局最优
  • 仅是诊断工具,未提出修复训练方法

相关工作与启发

  • vs Miller et al. (2021):他们提出 AoTL 且认为虚假相关不严重。本文直接挑战——AoTL 是聚合假象
  • vs Teney et al. (2023):用更多样化模型发现部分数据集不满足 AoTL。本文更进一步——在同一数据集内部发现反向子集
  • vs SliceFinder/SSD++:需要显式分组元数据,OODSelect 不需任何元数据

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 颠覆性发现——AoTL是聚合假象
  • 实验充分度: ⭐⭐⭐⭐⭐ 7数据集、数千模型、多层验证
  • 写作质量: ⭐⭐⭐⭐⭐ 论点层层递进,图表说服力强
  • 价值: ⭐⭐⭐⭐⭐ 对 OOD 评估方法论有根本性影响