Aggregation Hides OOD Generalization Failures from Spurious Correlations¶

会议: NeurIPS 2025
arXiv: 2510.24884
代码: https://github.com/olawalesalaudeen/OODSELECT
领域: OOD 泛化 / 鲁棒性
关键词: OOD泛化, 虚假相关, 聚合偏差, accuracy-on-the-line, 子集分析

一句话总结¶

揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line（ID 与 OOD 准确率正相关），但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集（最高达 75%），这些子集上 ID 越高 OOD 反而越低（Pearson R 低至 -0.92），证明虚假相关的危害被聚合评估系统性隐藏。

研究背景与动机¶

领域现状：OOD 泛化领域观察到 accuracy-on-the-line（AoTL）——在 DomainBed/WILDS benchmark 上，ID 高的模型 OOD 也高。这常被解读为虚假相关不严重。
现有痛点：（a）AoTL 仅在聚合所有 OOD 样本后成立；（b）大子群体对虚假特征敏感时，其效应被"正常"样本稀释；（c）现有子集发现方法需显式分组元数据。
核心矛盾：AoTL 被视为好消息，但可能是聚合假象——在某些子群上，提升 ID 的模型恰恰更依赖虚假特征，OOD 反而更差。
本文要解决什么？ 证明聚合评估掩蔽了虚假相关的危害，并提供发现被掩蔽失败子集的方法。
切入角度：将 OOD 子集选择建模为优化问题——最小化选定子集上 ID-OOD 的 Pearson 相关系数。
核心 idea 一句话：梯度优化从 OOD 数据中选出 accuracy-on-the-inverse-line 子集，揭示被聚合掩蔽的泛化失败。

方法详解¶

整体框架¶

给定 \(N\) 个模型和 \(d\) 个 OOD 样本，构建正确分类矩阵 \(\mathbf{Z} \in \{0,1\}^{N \times d}\)。学习选择向量 \(\mathbf{s} \in [0,1]^d\)（sigmoid 松弛）使选定子集上的 ID-OOD 相关性最小化，用 Adam 优化器求解。

关键设计¶

OODSelect 优化:
做什么：从 OOD 数据中选出使 ID-OOD 相关性最负的子集
核心思路：将离散选择松弛为连续变量，优化 \(\min_{\mathbf{s}} \text{corr}(\text{acc}_{ID}, \text{acc}^s_{OOD}) + \lambda(S - \|\mathbf{s}\|_1)^2\)。使用余弦退火调度。模型分训练/验证/测试集避免过拟合
设计动机：目标函数非凸非子模（定理证明），贪心不可行；但 Lipschitz 连续性保证梯度下降稳定收敛
多层次验证:
做什么：确保发现的子集反映真实虚假相关而非采样噪声
核心思路：（a）与随机选择对比（始终正相关）；（b）与"最易误分类"对比（相关性近0但不为负）；（c）Spearman 秩相关排除异常值；（d）跨架构验证（ResNet vs ViT 分离）
设计动机：负相关可能有多种解释，需系统排除
选择一致性验证:
做什么：确认不同大小子集是否语义连贯
核心思路：对不同子集大小 \(S\) 独立选择，计算归一化 Jaccard Index——小子集几乎是大子集的子集
设计动机：如果选择不一致说明只是优化噪声

损失函数 / 训练策略¶

优化：Adam + 余弦退火
模型三重分割：训练模型（学选择）、验证模型、测试模型（完全不重叠）
每个数据集训练数百到数千个模型

实验关键数据¶

主实验¶

数据集	完整OOD R	最大OODSelect R	子集占比	模型数
CXR No Finding	+0.86	-0.60	75%	1800
TerraIncognita	+0.89	-0.77	25%	2980
VLCS	+0.62	-0.92	30%	4200
WILDSCamelyon-H5	+0.74	<-0.3	40%	944
WILDSCivilComments	+0.81	<-0.3	50%	710
PACS	+0.81	-0.33	6%	2804

消融对比¶

选择方法	CXR R	VLCS R	说明
随机选择	+0.85	+0.61	始终正相关
最易误分类	~0	~0	弱相关但不为负
CLIP距离选择	+0.52	-0.10	无法发现深层虚假相关
OODSelect	-0.60	-0.92	发现虚假相关驱动的子集

关键发现¶

CXR 中 75% OOD 数据受虚假相关影响——聚合后 R 从 -0.60 变成 +0.86 完全因为 25% 干净样本的稀释
虚假相关不等于样本困难：最难样本 R~0，OODSelect 样本 R<0——两者本质不同
CXR 语义连贯：OODSelect 子集富含 Pleural Other 和 Support Devices——已知虚假预测因子
跨架构一致：ResNet 选出子集在 ViT 上仍显示负相关
VLM 不一定鲁棒：VLM 零样本的 ID-OODSelect 仍正相关（两侧对 VLM 都是 OOD）

亮点与洞察¶

"聚合掩蔽"是对 OOD 评估方法论的根本性挑战——不仅对 AoTL 的"好消息"打了问号，还提示所有聚合指标的 OOD benchmark 可能系统性低估虚假相关的危害
OODSelect 的哲学：不是"找最难的样本"而是"找虚假相关导致的失败样本"——全新评估视角
75% CXR OOD 受影响——在医学影像中仅看聚合准确率完全不可靠

局限性 / 可改进方向¶

需训练数千个模型（计算昂贵，但一次性成本）——已开源所有选择结果
语义解释困难：histopathology 图像等难以用自然语言解释
非凸优化无法保证全局最优
仅是诊断工具，未提出修复训练方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 颠覆性发现——AoTL是聚合假象
实验充分度: ⭐⭐⭐⭐⭐ 7数据集、数千模型、多层验证
写作质量: ⭐⭐⭐⭐⭐ 论点层层递进，图表说服力强
价值: ⭐⭐⭐⭐⭐ 对 OOD 评估方法论有根本性影响