跳转至

Preserving Task-Relevant Information Under Linear Concept Removal

会议: NeurIPS 2025
arXiv: 2506.10703
代码: https://github.com/ (有,论文脚注提供链接)
领域: AI安全 / 公平性
关键词: 概念擦除, 公平表示学习, 斜投影, 线性守护, 偏见消除

一句话总结

SPLINCE通过构造一种斜投影(oblique projection),在保证线性守护性(不可被线性分类器预测敏感属性)的同时,精确保留表征与目标标签之间的协方差,解决了现有概念擦除方法在移除敏感概念的同时误删任务相关信息的问题。

研究背景与动机

深度神经网络(DNN)的表示(embedding)中不仅编码了任务相关信息,还隐含了不期望的概念(如性别、种族),导致模型做出有偏见的预测。例如,一个用于筛选求职简历的分类器可能因为编码了性别信息而产生偏见。

已有的事后概念擦除方法(INLP、RLACE、LEACE、SAL等)通过线性投影使表征中的敏感概念无法被线性分类器预测(即"线性守护性")。但这些方法的关键缺陷在于:在移除敏感概念的同时,也损害了与任务相关的有用信息

核心矛盾:当敏感属性与目标任务存在相关性时(如某些职业的性别分布不均),移除敏感信号不可避免地会损害任务性能。现有方法要么保留线性守护性但损害任务信息(LEACE),要么保护任务信息但牺牲守护性。

SPLINCE的核心idea:能否在移除敏感概念的同时,精确保留表征与目标标签之间的协方差?答案是肯定的——通过斜投影,将敏感概念的协方差方向放在投影核(kernel)中,同时将目标任务的协方差方向保留在投影值域(range)中。

方法详解

整体框架

SPLINCE是一种线性代数方法,计算一个投影矩阵 \(\mathbf{P}^*_{SPLINCE}\),应用到DNN最后一层的embedding上。其核心是求解一个带两个约束的优化问题。

关键设计

  1. 双约束优化问题

    • 给定表征 \(\bm{x}\)、敏感属性 \(\bm{z}\)、任务标签 \(\bm{y}\),目标是找到投影 \(\mathbf{P}\) 满足:
      • 核约束(Kernel Constraint)\(\mathbf{P}\Sigma_{\bm{x},\bm{z}} = \mathbf{0}\)(线性守护性,使投影后的表征与敏感属性零协方差)
      • 值域约束(Range Constraint)\(\mathbf{P}\Sigma_{\bm{x},\bm{y}} = \Sigma_{\bm{x},\bm{y}}\)(保留表征与任务标签的协方差完全不变)
      • 最小化失真\(\min_{\mathbf{P}} \mathbb{E}[\|\mathbf{P}\bm{x} - \bm{x}\|^2_{\mathbf{M}}]\)
    • 闭式解:\(\mathbf{P}^*_{SPLINCE} = \mathbf{W}^+ \mathbf{V}(\mathbf{U}^T\mathbf{V})^{-1}\mathbf{U}^T\mathbf{W}\)
    • 其中 \(\mathbf{W}\) 是白化矩阵,\(\mathbf{U}\)\(\mathbf{V}\) 是特定子空间的正交基
  2. 等价性定理(Theorem 3.2)

    • 关键理论发现:所有具有相同核(即擦除相同子空间)的投影,在无正则化重训练线性分类器后,会产生完全相同的预测
    • 这意味着SPLINCE与LEACE在无正则化场景下等价——值域的选择不影响最终预测
    • 但在两种实际重要场景下,值域选择确实影响结果:(1) 有正则化的重训练;(2) 不重训练最后一层(如语言模型干预)
  3. 适用条件

    • 前提假设:\(\mathcal{U}^\perp \cap \text{colsp}(\mathbf{W}\Sigma_{\bm{x},\bm{y}}) = \{\mathbf{0}\}\)
    • 即白化后,敏感属性和任务标签的协方差方向不完全重叠
    • 对二元变量来说,等价于 \(\text{Cov}(\bm{x},\bm{z})\)\(\text{Cov}(\bm{x},\bm{y})\) 线性无关(不成比例)

损失函数 / 训练策略

  • SPLINCE本身无需训练——它是一个闭式投影计算
  • 应用流程:先微调DNN获取embedding → 计算SPLINCE投影矩阵 → 投影embedding → 重训练/使用线性分类器
  • 计算SPLINCE只需要数据的一阶和二阶统计量(均值和协方差矩阵)

实验关键数据

主实验

分类任务(Bias in Bios) — 任务:职业预测, 移除:性别

方法 强相关场景(p=0.9) Accuracy Worst-Group Acc 说明
LEACE ~70% ~55% 损失任务信息
SAL ~68% ~52% 损失更多
SPLINCE ~78% ~72% 显著优势

语言模型(Llama) — 移除刻板印象、保留事实性别信息

模型/投影 exp(β_stereo) exp(β_fact) 说明
Llama 2 7B 原始 3.59 15.71 依赖刻板印象
+SAL 0.80 5.90 事实信息大幅损失
+LEACE 0.85 12.14 事实信息部分损失
+SPLINCE 0.79 24.27 刻板印象擦除+事实信息保留甚至增强

消融实验

配置 效果 说明
无正则化重训练 SPLINCE = LEACE = SAL 定理3.2的实证验证
L2正则化重训练 SPLINCE > LEACE > SAL 正则化下值域选择有影响
冻结最后层(LM) SPLINCE >> LEACE 不重训练时差异最大
强任务-概念相关 SPLINCE优势增大 相关性越强,保护值域越重要

关键发现

  • 当任务-敏感属性相关性增强时,SPLINCE的优势越来越明显
  • 在Winobias共指消解任务中,SPLINCE在反刻板印象提示上的准确率提升最大
  • CelebA图像实验中,SPLINCE投影后图像可视化显示方法精准地保留了"眼镜"特征同时擦除"微笑"特征
  • 在NLP任务中表现优于在视觉任务中,视觉任务的性能差距是有待研究的方向

亮点与洞察

  • 理论优雅:从线性代数的角度给出了概念擦除与信息保护问题的唯一最优解
  • Theorem 3.2的发现非常深刻:核相同时值域不影响无正则化的重训练结果,精确刻画了"什么时候值域选择重要"的边界
  • SPLINCE是LEACE的自然推广:LEACE最小化失真但对任务无知,SPLINCE利用"失真最小化的自由度"来保护任务信息
  • 在Llama模型上的实验展示了一个引人入胜的应用:消除刻板印象的同时保留事实性别关联

局限与展望

  • 理论上仅适用于线性概念擦除,非线性概念编码需要其他方法
  • SPLINCE优先保护协方差可能导致embedding的较大失真(在某些场景中偏离原始表示较远)
  • 目前仅适用于最后一层embedding,中间层的干预效果有限
  • 未探索多模态设置(如CLIP),跨模态协方差子空间可能不对齐
  • 视觉任务的表现不如NLP任务,原因有待进一步研究

相关工作与启发

  • LEACE(Belrose et al., 2023)是最直接的前作:最小化失真的线性守护投影
  • INLP、RLACE系列方法提供了概念擦除的迭代/优化框架
  • 斜投影(oblique projection)在信号处理中有广泛应用,本文将其引入公平表示学习领域
  • 该方法启发了一种思路:通过几何约束(核+值域)实现多目标平衡

评分

  • 新颖性: ⭐⭐⭐⭐ 将斜投影应用于概念擦除是新颖且优雅的,理论贡献扎实
  • 实验充分度: ⭐⭐⭐⭐ 多个NLP和CV数据集,多种LM模型,消融完整
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,直觉解释到位,图示说明精良
  • 价值: ⭐⭐⭐⭐ 解决了概念擦除领域的核心痛点,理论和实践价值兼具

相关论文