Aggregation Hides OOD Generalization Failures from Spurious Correlations¶
会议: NeurIPS 2025
arXiv: 2510.24884
代码: https://github.com/olawalesalaudeen/OODSELECT
领域: OOD 泛化 / 鲁棒性
关键词: OOD泛化, 虚假相关, 聚合偏差, accuracy-on-the-line, 子集分析
一句话总结¶
揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line(ID 与 OOD 准确率正相关),但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集(最高达 75%),这些子集上 ID 越高 OOD 反而越低(Pearson R 低至 -0.92),证明虚假相关的危害被聚合评估系统性隐藏。
研究背景与动机¶
-
领域现状:OOD 泛化领域观察到 accuracy-on-the-line(AoTL)——在 DomainBed/WILDS benchmark 上,ID 高的模型 OOD 也高。这常被解读为虚假相关不严重。
-
现有痛点:(a)AoTL 仅在聚合所有 OOD 样本后成立;(b)大子群体对虚假特征敏感时,其效应被"正常"样本稀释;(c)现有子集发现方法需显式分组元数据。
-
核心矛盾:AoTL 被视为好消息,但可能是聚合假象——在某些子群上,提升 ID 的模型恰恰更依赖虚假特征,OOD 反而更差。
-
本文要解决什么? 证明聚合评估掩蔽了虚假相关的危害,并提供发现被掩蔽失败子集的方法。
-
切入角度:将 OOD 子集选择建模为优化问题——最小化选定子集上 ID-OOD 的 Pearson 相关系数。
-
核心 idea 一句话:梯度优化从 OOD 数据中选出 accuracy-on-the-inverse-line 子集,揭示被聚合掩蔽的泛化失败。
方法详解¶
整体框架¶
给定 \(N\) 个模型和 \(d\) 个 OOD 样本,构建正确分类矩阵 \(\mathbf{Z} \in \{0,1\}^{N \times d}\)。学习选择向量 \(\mathbf{s} \in [0,1]^d\)(sigmoid 松弛)使选定子集上的 ID-OOD 相关性最小化,用 Adam 优化器求解。
关键设计¶
- OODSelect 优化:
- 做什么:从 OOD 数据中选出使 ID-OOD 相关性最负的子集
- 核心思路:将离散选择松弛为连续变量,优化 \(\min_{\mathbf{s}} \text{corr}(\text{acc}_{ID}, \text{acc}^s_{OOD}) + \lambda(S - \|\mathbf{s}\|_1)^2\)。使用余弦退火调度。模型分训练/验证/测试集避免过拟合
-
设计动机:目标函数非凸非子模(定理证明),贪心不可行;但 Lipschitz 连续性保证梯度下降稳定收敛
-
多层次验证:
- 做什么:确保发现的子集反映真实虚假相关而非采样噪声
- 核心思路:(a)与随机选择对比(始终正相关);(b)与"最易误分类"对比(相关性近0但不为负);(c)Spearman 秩相关排除异常值;(d)跨架构验证(ResNet vs ViT 分离)
-
设计动机:负相关可能有多种解释,需系统排除
-
选择一致性验证:
- 做什么:确认不同大小子集是否语义连贯
- 核心思路:对不同子集大小 \(S\) 独立选择,计算归一化 Jaccard Index——小子集几乎是大子集的子集
- 设计动机:如果选择不一致说明只是优化噪声
损失函数 / 训练策略¶
- 优化:Adam + 余弦退火
- 模型三重分割:训练模型(学选择)、验证模型、测试模型(完全不重叠)
- 每个数据集训练数百到数千个模型
实验关键数据¶
主实验¶
| 数据集 | 完整OOD R | 最大OODSelect R | 子集占比 | 模型数 |
|---|---|---|---|---|
| CXR No Finding | +0.86 | -0.60 | 75% | 1800 |
| TerraIncognita | +0.89 | -0.77 | 25% | 2980 |
| VLCS | +0.62 | -0.92 | 30% | 4200 |
| WILDSCamelyon-H5 | +0.74 | <-0.3 | 40% | 944 |
| WILDSCivilComments | +0.81 | <-0.3 | 50% | 710 |
| PACS | +0.81 | -0.33 | 6% | 2804 |
消融对比¶
| 选择方法 | CXR R | VLCS R | 说明 |
|---|---|---|---|
| 随机选择 | +0.85 | +0.61 | 始终正相关 |
| 最易误分类 | ~0 | ~0 | 弱相关但不为负 |
| CLIP距离选择 | +0.52 | -0.10 | 无法发现深层虚假相关 |
| OODSelect | -0.60 | -0.92 | 发现虚假相关驱动的子集 |
关键发现¶
- CXR 中 75% OOD 数据受虚假相关影响——聚合后 R 从 -0.60 变成 +0.86 完全因为 25% 干净样本的稀释
- 虚假相关不等于样本困难:最难样本 R~0,OODSelect 样本 R<0——两者本质不同
- CXR 语义连贯:OODSelect 子集富含 Pleural Other 和 Support Devices——已知虚假预测因子
- 跨架构一致:ResNet 选出子集在 ViT 上仍显示负相关
- VLM 不一定鲁棒:VLM 零样本的 ID-OODSelect 仍正相关(两侧对 VLM 都是 OOD)
亮点与洞察¶
- "聚合掩蔽"是对 OOD 评估方法论的根本性挑战——不仅对 AoTL 的"好消息"打了问号,还提示所有聚合指标的 OOD benchmark 可能系统性低估虚假相关的危害
- OODSelect 的哲学:不是"找最难的样本"而是"找虚假相关导致的失败样本"——全新评估视角
- 75% CXR OOD 受影响——在医学影像中仅看聚合准确率完全不可靠
局限性 / 可改进方向¶
- 需训练数千个模型(计算昂贵,但一次性成本)——已开源所有选择结果
- 语义解释困难:histopathology 图像等难以用自然语言解释
- 非凸优化无法保证全局最优
- 仅是诊断工具,未提出修复训练方法
相关工作与启发¶
- vs Miller et al. (2021):他们提出 AoTL 且认为虚假相关不严重。本文直接挑战——AoTL 是聚合假象
- vs Teney et al. (2023):用更多样化模型发现部分数据集不满足 AoTL。本文更进一步——在同一数据集内部发现反向子集
- vs SliceFinder/SSD++:需要显式分组元数据,OODSelect 不需任何元数据
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 颠覆性发现——AoTL是聚合假象
- 实验充分度: ⭐⭐⭐⭐⭐ 7数据集、数千模型、多层验证
- 写作质量: ⭐⭐⭐⭐⭐ 论点层层递进,图表说服力强
- 价值: ⭐⭐⭐⭐⭐ 对 OOD 评估方法论有根本性影响