Out-of-distribution Generalisation is Hard: Evidence from ARC-like Tasks¶

会议: NeurIPS 2025
arXiv: 2505.09716
代码: 无
领域: LLM/NLP / 泛化理论
关键词: OOD泛化, 组合泛化, ARC任务, 归纳偏置, 特征学习

一句话总结¶

通过构建具有明确OOD度量的ARC类任务，证明标准神经网络(MLP/CNN/Transformer)无法实现组合OOD泛化，即使设计具有正确归纳偏置的架构达到近乎完美的OOD性能，也可能学到错误的组合特征。

研究背景与动机¶

分布外 (OOD) 泛化被认为是人类和动物智能的标志性能力。通过组合实现OOD泛化要求系统： 1. 发现环境不变的输入-输出映射属性 2. 将其迁移到新颖输入上

然而，现有研究存在关键问题： - 仅在OOD设置上测试不足以证明算法学到了组合结构 - 还需确认所识别的特征确实是组合性的 - 当一个系统在OOD测试中表现良好时，我们无法确定它是否真正学到了正确的组合规则

作者的核心论点：验证OOD泛化需要同时验证性能和特征正确性。

方法详解¶

整体框架¶

设计两个具有明确定义OOD度量的任务
测试三种标准网络（MLP、CNN、Transformer）的OOD能力
设计两种具有正确归纳偏置的新架构
分析即使OOD性能完美时特征学习是否正确

关键设计¶

任务设计： - 借鉴ARC (Abstraction and Reasoning Corpus) 的思路 - 任务具有可分解的组合结构 - OOD度量清晰定义：输入特征的新组合是否能正确处理

任务1 - 几何变换任务： - 输入：具有特定几何属性的网格图案 - 输出：经过确定性变换的图案 - OOD设置：训练集和测试集的几何属性组合不同 - 关键特征：变换可以分解为独立的子操作

任务2 - 颜色-形状组合任务： - 输入涉及颜色和形状的独立变化 - 正确的组合泛化要求分别学习颜色和形状的不变特征

两种新架构： - 架构A：嵌入几何不变性的偏置，使网络能够分别处理各维度的变换 - 架构B：嵌入组合分解的偏置，强制网络将特征空间分解为独立子空间

损失函数 / 训练策略¶

标准交叉熵/MSE损失
各架构使用相同的训练数据和优化策略
训练-测试分割严格控制OOD程度

实验关键数据¶

主实验¶

标准网络的OOD泛化测试：

网络	任务1 ID准确率	任务1 OOD准确率	任务2 ID准确率	任务2 OOD准确率
MLP	~100%	~0%	~100%	~0%
CNN	~100%	~0%	~100%	~0%
Transformer	~100%	~0%	~100%	~0%

具有正确偏置的新架构：

架构	任务1 OOD准确率	任务2 OOD准确率	特征正确性
偏置架构A	~100%	~100%	部分不正确
偏置架构B	~100%	~100%	部分不正确

消融实验¶

实验条件	OOD性能	学到正确组合特征
无归纳偏置	失败	否
弱归纳偏置	部分成功	不确定
强归纳偏置	成功	不保证
完美归纳偏置	近完美	仍可能不正确

关键发现¶

标准网络全面失败：MLP、CNN、Transformer在两个任务上的OOD准确率均接近零
正确偏置≠正确特征：即使嵌入正确的归纳偏置实现了近完美OOD性能，网络仍可能学到不正确的组合特征
OOD性能≠组合泛化：高OOD性能并不能证明算法确实学到了底层的组合结构
验证特征正确性的必要性：仅测试OOD性能不足以确认组合泛化能力

亮点与洞察¶

方法论贡献：提出了评估组合泛化的新标准——不仅要看性能，还要验证特征正确性
反直觉发现：近完美的OOD性能可以通过"错误"的方式达成，即不依赖于正确的组合特征
对ARC的启示：解释了为什么当前AI系统在ARC任务上表现不佳——缺乏真正的组合推理能力
理论与实践差距：归纳偏置虽然必要但不充分，强调了理解模型学到什么的重要性

局限与展望¶

任务设计相对简单，与真实ARC任务相比复杂度有限
仅测试了三种标准架构和两种自定义架构
特征正确性的验证方法较为手工化，缺乏自动化评估手段
未探索更大规模模型或预训练模型的组合泛化能力
未考虑in-context learning等新范式对OOD泛化的影响

评分¶

新颖性：⭐⭐⭐⭐ (方法论贡献显著)
技术深度：⭐⭐⭐⭐ (分析严谨)
实验充分性：⭐⭐⭐ (任务可更丰富)
实用价值：⭐⭐⭐ (主要是理论启示)