InterpoLL: Mitigating Shortcut Learning with InterpoLated Learning¶

会议: ACL 2025
arXiv: 2507.05527
代码: 无
领域: 其他
关键词: shortcut learning, robustness, interpolation, minority generalization, NLU

一句话总结¶

提出 InterpoLL，通过将多数样本的表征与同类少数样本的表征做插值 \(z_i = (1-\lambda)f_{enc}(x_i) + \lambda f_{enc}(x_j)\) 来弱化捷径特征影响，在 MNLI/FEVER/QQP 等 NLU 任务上少数样本泛化显著超越 ERM 和 SOTA 捷径缓解方法，且不损失多数样本准确率。

研究背景与动机¶

领域现状：ERM 训练的模型利用多数样本中的虚假相关（shortcuts，如 NLI 中"高词重叠=蕴含"、毒性检测中"male=无毒"），在少数样本上泛化差。当测试分布中少数样本更多时性能骤降。
现有痛点：现有缓解方法（数据增强、样本加权如 GroupDRO/JTT/DFR）主要改善分类层，不改变表征本身——甚至可能强化表征中的捷径特征。且多需要组标签（minority/majority 的先验标注）。
核心矛盾：如何在表征层面（而非分类层面）减少捷径特征的影响？
核心 idea：将多数样本的表征与同类少数样本的表征做插值，让捷径特征被"稀释"，同时保留分类信号（同类标签不变）。

方法详解¶

整体框架¶

(1) 用欠参数化辅助模型 \(f_\phi\)（故意让其更依赖捷径）推断多数/少数样本——被 \(f_\phi\) 正确分类的=多数，误分类的=少数。无需组标签。 (2) 对每个多数样本 \(x_i\)，随机采样一个同类少数样本 \(x_j\)（\(y_i = y_j\)），做表征插值：\(z_i = (1-\lambda) f_{enc}(x_i) + \lambda f_{enc}(x_j)\)，\(\lambda \sim U(0, 0.5)\)。 (3) \(\lambda < 0.5\) 确保多数样本表征只被"轻微调整"而非覆盖——标签保持不变。 (4) 少数样本不做插值，正常编码。

设计动机¶

少数样本的特征与捷径相反（如"male"出现在"toxic"类中），插值引入这些"反捷径"特征，弱化多数样本中的捷径信号。
与 Mixup 不同：Mixup 混合不同类样本改变标签，InterpoLL 混合同类样本保持标签——目的不是数据增强而是表征去偏。

实验关键数据¶

方法	MNLI OOD	FEVER OOD	QQP OOD	需组标签?
ERM	62.4	55.9	33.8	✗
GroupDRO	72.5	64.1	52.9	✓
JTT	71.8	62.3	52.5	✗
DFR	72.3	62.7	-	✗
InterpoLL	>72.5	>64.1	>52.9	✗

深度分析亮点¶

减少表征中的捷径特征：probing 实验证实 InterpoLL 的表征中捷径信息显著减少。
对噪声更鲁棒：当 minority/majority 推断有误时，InterpoLL 受影响最小。
训练动态平衡：minority 和 majority 的损失下降速度更均衡。
域泛化也有效：不需要域标签也可提升域外泛化。
encoder/encoder-decoder/decoder-only 三种架构一致有效。

亮点与洞察¶

"同类插值去偏"的直觉极其简洁：一行公式解决捷径学习问题，运行时间与 ERM 相当。
无需组标签即超越需要组标签的方法（如 GroupDRO）——实用性显著更强。
表征层面的改进是真正的改进：vs 仅改分类层的方法，InterpoLL 的表征本身更"公平"。

局限性 / 可改进方向¶

辅助模型推断 minority/majority 可能不完全准确。
\(\lambda\) 的范围（0-0.5）是经验选择。
需要同类 minority 样本存在——极端不平衡时可能不适用。

评分¶

新颖性: ⭐⭐⭐⭐ 表征空间同类插值去偏，简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 6 数据集 + 3 架构 + 5 项深度分析
写作质量: ⭐⭐⭐⭐ 方法直观，分析透彻
价值: ⭐⭐⭐⭐ 对鲁棒 NLU 有重要实用价值