跳转至

RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals

会议: ICML2025
arXiv: 2410.11348
代码: toddnief/RATE
领域: 因果可解释性 / 奖励模型
关键词: 因果推断, 奖励模型可解释性, 平均处理效应, 反事实重写, RLHF

一句话总结

提出 RATE(Rewrite-based Attribute Treatment Estimator),通过"双重重写"策略消除 LLM 不完美反事实重写引入的偏差,从而正确估计高层属性对奖励模型评分的因果效应。

研究背景与动机

奖励模型(RM)在 LLM 对齐中扮演核心角色,但其本质是一个黑箱——我们很难知道 RM 到底在奖励什么。一个朴素的做法是对比拥有/缺乏某属性的样本的平均奖励差异(naive estimator),但这会将混杂因素混入估计中。例如,想测量 RM 对"情感"的敏感度,但评估数据中负面样本恰好有更多拼写错误,则朴素估计量会把拼写错误的影响也算进去。

为获得可靠的属性敏感度度量,需要把问题形式化为因果效应估计:测量仅改变目标属性而保持其他一切不变时,reward 会如何变化。自然的想法是用 LLM 生成反事实对(只改变目标属性的重写),但 LLM 产生的重写是不完美的——会引入"脱靶修改"(如自动修正语法错误、调整格式),从而导致显著偏差。

方法详解

因果框架

将 RM 可解释性形式化为属性 \(W\) 对 reward 的平均处理效应(ATE):

\[\text{ATE} = \mathbb{E}[R(X, Y(1)) - R(X, Y(0))]\]

其中 \(Y(1)\)\(Y(0)\) 是仅在属性 \(W\) 上不同的潜在结果对。同时定义 ATT(对已处理组的效应)和 ATU(对未处理组的效应),因为两者可能显著不同(人类偏好本身也是不对称的)。

不完美重写的问题

用 LLM 重写 \(\text{Re}(y^i, w)\) 来近似反事实,但重写会引入误差:

\[\epsilon_w^i = R(x^i, \text{Re}(y^i, w)) - R(x^i, y^i(w))\]

例如 GPT-4o 在重写情感属性时几乎总会修正拼写错误,使得单次重写估计量产生系统性偏差。

RATE:双重重写消偏

核心思想:不比较"原始 vs 重写",而比较"重写 vs 重写的重写"。这样脱靶修改(如修正拼写)在两侧都会发生,从而在期望下相互抵消。

对于 \(w^i = 1\) 的样本:

\[\delta^i = R(x^i, \text{Re}(\text{Re}(y^i, 0), 1)) - R(x^i, \text{Re}(y^i, 0))\]

对于 \(w^i = 0\) 的样本:

\[\delta^i = R(x^i, \text{Re}(y^i, 1)) - R(x^i, \text{Re}(\text{Re}(y^i, 1), 0))\]

最终 ATE 估计为加权平均:

\[\widehat{\text{ATE}}_{\text{RATE}} = \frac{n_1}{n_0 + n_1} \widehat{\text{ATT}}_{\text{RATE}} + \frac{n_0}{n_0 + n_1} \widehat{\text{ATU}}_{\text{RATE}}\]

理论保证

在两个温和假设下证明 RATE 的无偏性和 \(\sqrt{n}\)-一致性:

  1. 假设 1(重写误差与方向无关):LLM 的脱靶修改分布 \(P_{\text{Re}}\) 不依赖于目标属性 \(W\) 的值——如 GPT-4o 修正拼写的倾向不取决于情感方向。
  2. 假设 2(reward 对重写误差的可加性):\(R(X, Y(W,Z,\xi)) = R_{W,Z}(X,W,Z) + R_\xi(X,\xi)\),即 reward 中受重写误差影响的分量与目标属性和不可变属性的分量是可加的。

实验关键数据

半合成实验:拼写错误 × "首字母是元音"

人为将拼写错误与"首字母为元音"关联(制造虚假相关),用 FsfairX-LLaMA3-RM 评分。

估计方法 拼写错误 0% 时的 ATE 拼写错误 30% 时的 ATE
Naive ≈ 0 显著负偏差(约 -0.15)
单次重写 ≈ 0 显著负偏差(约 -0.10)
RATE ≈ 0 ≈ 0(正确)

→ 随着虚假相关增强,naive 和单次重写偏差持续增大,RATE 始终正确估计为 ≈ 0。

情感分类器验证

用 DistilBERT 情感分类器当"reward model",测量"长度"的处理效应(应接近零):

  • Naive 估计量对分布偏移高度敏感,偏差随长度-情感相关性增大
  • RATE 在各种相关度下保持近零且稳定

真实 RM 评估(RewardBench 顶尖模型)

在 IMDB / ELI5 / HelpSteer 上评测多个 RM(ArmoRM、FsfairX、NCSOFT 等):

  • 长度:Naive 报告大效应,RATE 显示极小效应 → "长度偏差"很大程度是 naive 评估的伪影
  • 复杂度/有用性:Naive 估计量系统性高估效应
  • 情感:Naive 估计量反而低估效应
  • NCSOFT 号称修复了 FsfairX 的长度偏差,但 RATE 表明改善不如表面上那么大,可能意外惩罚了复杂度等其他属性

实验成本

使用 GPT-4o BatchAPI,25K IMDB 样本的双重重写成本约 $60。

亮点与洞察

  • 双重重写消偏的思路极为巧妙——通过引入更多噪声反而消除了偏差,类似差分法的思想
  • 理论分析干净:两个假设都有明确的直觉解释和可验证性
  • 揭示了一个重要发现:RM 的"长度偏差"在很大程度上是 naive 评估方法引入的伪影,而非 RM 本身的缺陷
  • 方法通用性强,可用于任何可通过 LLM 重写操控的文本属性
  • 区分 ATT/ATU/ATE 的做法提供了更细粒度的可解释性

局限与展望

  1. 重写质量无客观度量:反事实重写的质量最终依赖主观判断(看生成结果是否合理),缺乏形式化验证手段
  2. 可加性假设的局限:假设 2 要求 reward 关于重写误差是可加的,但真实 RM 可能存在属性间交互效应
  3. 仅分析 RM 本身:未研究 RM 的因果敏感性如何传导到下游对齐后 LLM 的行为
  4. 仅支持二元属性:当前框架限定 \(W \in \{0, 1\}\),对连续属性需要先二值化
  5. 依赖强大的 rewriter LLM:重写质量受所用 LLM 能力限制,且重写指令需要人工迭代调优

相关工作与启发

  • CausaLM(Feder et al., 2021):训练文本分类器"遗忘"概念以估计处理效应,使用基于规则的重写
  • Polyjuice(Wu et al., 2021):训练专用模型生成多样化反事实
  • RewardBench(Lambert et al., 2024):RM 非因果评估基准,与 RATE 的因果框架互补
  • RATE 可视为因果可解释性领域从"基于规则重写"到"基于 LLM 重写 + 消偏"的范式跃升

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 双重重写消偏的想法新颖且优雅
  • 实验充分度: ⭐⭐⭐⭐ — 半合成 + 真实 RM 验证充分,但缺少下游对齐实验
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、图表直观、理论与实验结合紧密
  • 价值: ⭐⭐⭐⭐ — 对 RM 可解释性领域有实质贡献,"长度偏差是伪影"的发现有实际影响

相关论文