InterpoLL: Mitigating Shortcut Learning with InterpoLated Learning¶
会议: ACL 2025
arXiv: 2507.05527
代码: 无
领域: 其他
关键词: shortcut learning, robustness, interpolation, minority generalization, NLU
一句话总结¶
提出 InterpoLL,通过将多数样本的表征与同类少数样本的表征做插值 \(z_i = (1-\lambda)f_{enc}(x_i) + \lambda f_{enc}(x_j)\) 来弱化捷径特征影响,在 MNLI/FEVER/QQP 等 NLU 任务上少数样本泛化显著超越 ERM 和 SOTA 捷径缓解方法,且不损失多数样本准确率。
研究背景与动机¶
- 领域现状:ERM 训练的模型利用多数样本中的虚假相关(shortcuts,如 NLI 中"高词重叠=蕴含"、毒性检测中"male=无毒"),在少数样本上泛化差。当测试分布中少数样本更多时性能骤降。
- 现有痛点:现有缓解方法(数据增强、样本加权如 GroupDRO/JTT/DFR)主要改善分类层,不改变表征本身——甚至可能强化表征中的捷径特征。且多需要组标签(minority/majority 的先验标注)。
- 核心矛盾:如何在表征层面(而非分类层面)减少捷径特征的影响?
- 核心 idea:将多数样本的表征与同类少数样本的表征做插值,让捷径特征被"稀释",同时保留分类信号(同类标签不变)。
方法详解¶
整体框架¶
(1) 用欠参数化辅助模型 \(f_\phi\)(故意让其更依赖捷径)推断多数/少数样本——被 \(f_\phi\) 正确分类的=多数,误分类的=少数。无需组标签。 (2) 对每个多数样本 \(x_i\),随机采样一个同类少数样本 \(x_j\)(\(y_i = y_j\)),做表征插值:\(z_i = (1-\lambda) f_{enc}(x_i) + \lambda f_{enc}(x_j)\),\(\lambda \sim U(0, 0.5)\)。 (3) \(\lambda < 0.5\) 确保多数样本表征只被"轻微调整"而非覆盖——标签保持不变。 (4) 少数样本不做插值,正常编码。
设计动机¶
- 少数样本的特征与捷径相反(如"male"出现在"toxic"类中),插值引入这些"反捷径"特征,弱化多数样本中的捷径信号。
- 与 Mixup 不同:Mixup 混合不同类样本改变标签,InterpoLL 混合同类样本保持标签——目的不是数据增强而是表征去偏。
实验关键数据¶
| 方法 | MNLI OOD | FEVER OOD | QQP OOD | 需组标签? |
|---|---|---|---|---|
| ERM | 62.4 | 55.9 | 33.8 | ✗ |
| GroupDRO | 72.5 | 64.1 | 52.9 | ✓ |
| JTT | 71.8 | 62.3 | 52.5 | ✗ |
| DFR | 72.3 | 62.7 | - | ✗ |
| InterpoLL | >72.5 | >64.1 | >52.9 | ✗ |
深度分析亮点¶
- 减少表征中的捷径特征:probing 实验证实 InterpoLL 的表征中捷径信息显著减少。
- 对噪声更鲁棒:当 minority/majority 推断有误时,InterpoLL 受影响最小。
- 训练动态平衡:minority 和 majority 的损失下降速度更均衡。
- 域泛化也有效:不需要域标签也可提升域外泛化。
- encoder/encoder-decoder/decoder-only 三种架构一致有效。
亮点与洞察¶
- "同类插值去偏"的直觉极其简洁:一行公式解决捷径学习问题,运行时间与 ERM 相当。
- 无需组标签即超越需要组标签的方法(如 GroupDRO)——实用性显著更强。
- 表征层面的改进是真正的改进:vs 仅改分类层的方法,InterpoLL 的表征本身更"公平"。
局限性 / 可改进方向¶
- 辅助模型推断 minority/majority 可能不完全准确。
- \(\lambda\) 的范围(0-0.5)是经验选择。
- 需要同类 minority 样本存在——极端不平衡时可能不适用。
评分¶
- 新颖性: ⭐⭐⭐⭐ 表征空间同类插值去偏,简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ 6 数据集 + 3 架构 + 5 项深度分析
- 写作质量: ⭐⭐⭐⭐ 方法直观,分析透彻
- 价值: ⭐⭐⭐⭐ 对鲁棒 NLU 有重要实用价值