RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals¶

会议: ICML2025
arXiv: 2410.11348
代码: toddnief/RATE
领域: 因果可解释性 / 奖励模型
关键词: 因果推断, 奖励模型可解释性, 平均处理效应, 反事实重写, RLHF

一句话总结¶

提出 RATE（Rewrite-based Attribute Treatment Estimator），通过"双重重写"策略消除 LLM 不完美反事实重写引入的偏差，从而正确估计高层属性对奖励模型评分的因果效应。

研究背景与动机¶

奖励模型（RM）在 LLM 对齐中扮演核心角色，但其本质是一个黑箱——我们很难知道 RM 到底在奖励什么。一个朴素的做法是对比拥有/缺乏某属性的样本的平均奖励差异（naive estimator），但这会将混杂因素混入估计中。例如，想测量 RM 对"情感"的敏感度，但评估数据中负面样本恰好有更多拼写错误，则朴素估计量会把拼写错误的影响也算进去。

为获得可靠的属性敏感度度量，需要把问题形式化为因果效应估计：测量仅改变目标属性而保持其他一切不变时，reward 会如何变化。自然的想法是用 LLM 生成反事实对（只改变目标属性的重写），但 LLM 产生的重写是不完美的——会引入"脱靶修改"（如自动修正语法错误、调整格式），从而导致显著偏差。

方法详解¶

因果框架¶

将 RM 可解释性形式化为属性 $W$ 对 reward 的平均处理效应（ATE）：

\[\text{ATE} = \mathbb{E}[R(X, Y(1)) - R(X, Y(0))]\]

其中 $Y(1)$ 和 $Y(0)$ 是仅在属性 $W$ 上不同的潜在结果对。同时定义 ATT（对已处理组的效应）和 ATU（对未处理组的效应），因为两者可能显著不同（人类偏好本身也是不对称的）。

不完美重写的问题¶

用 LLM 重写 $\text{Re}(y^i, w)$ 来近似反事实，但重写会引入误差：

\[\epsilon_w^i = R(x^i, \text{Re}(y^i, w)) - R(x^i, y^i(w))\]

例如 GPT-4o 在重写情感属性时几乎总会修正拼写错误，使得单次重写估计量产生系统性偏差。

RATE：双重重写消偏¶

核心思想：不比较"原始 vs 重写"，而比较"重写 vs 重写的重写"。这样脱靶修改（如修正拼写）在两侧都会发生，从而在期望下相互抵消。

对于 $w^i = 1$ 的样本：

\[\delta^i = R(x^i, \text{Re}(\text{Re}(y^i, 0), 1)) - R(x^i, \text{Re}(y^i, 0))\]

对于 $w^i = 0$ 的样本：

\[\delta^i = R(x^i, \text{Re}(y^i, 1)) - R(x^i, \text{Re}(\text{Re}(y^i, 1), 0))\]

最终 ATE 估计为加权平均：

\[\widehat{\text{ATE}}_{\text{RATE}} = \frac{n_1}{n_0 + n_1} \widehat{\text{ATT}}_{\text{RATE}} + \frac{n_0}{n_0 + n_1} \widehat{\text{ATU}}_{\text{RATE}}\]

理论保证¶

在两个温和假设下证明 RATE 的无偏性和 $\sqrt{n}$-一致性：

假设 1（重写误差与方向无关）：LLM 的脱靶修改分布 $P_{\text{Re}}$ 不依赖于目标属性 $W$ 的值——如 GPT-4o 修正拼写的倾向不取决于情感方向。
假设 2（reward 对重写误差的可加性）：$R(X, Y(W,Z,\xi)) = R_{W,Z}(X,W,Z) + R_\xi(X,\xi)$，即 reward 中受重写误差影响的分量与目标属性和不可变属性的分量是可加的。

实验关键数据¶

半合成实验：拼写错误 × "首字母是元音"¶

人为将拼写错误与"首字母为元音"关联（制造虚假相关），用 FsfairX-LLaMA3-RM 评分。

估计方法	拼写错误 0% 时的 ATE	拼写错误 30% 时的 ATE
Naive	≈ 0	显著负偏差（约 -0.15）
单次重写	≈ 0	显著负偏差（约 -0.10）
RATE	≈ 0	≈ 0（正确）

→ 随着虚假相关增强，naive 和单次重写偏差持续增大，RATE 始终正确估计为 ≈ 0。

情感分类器验证¶

用 DistilBERT 情感分类器当"reward model"，测量"长度"的处理效应（应接近零）：

Naive 估计量对分布偏移高度敏感，偏差随长度-情感相关性增大
RATE 在各种相关度下保持近零且稳定

真实 RM 评估（RewardBench 顶尖模型）¶

在 IMDB / ELI5 / HelpSteer 上评测多个 RM（ArmoRM、FsfairX、NCSOFT 等）：

长度：Naive 报告大效应，RATE 显示极小效应 → "长度偏差"很大程度是 naive 评估的伪影
复杂度/有用性：Naive 估计量系统性高估效应
情感：Naive 估计量反而低估效应
NCSOFT 号称修复了 FsfairX 的长度偏差，但 RATE 表明改善不如表面上那么大，可能意外惩罚了复杂度等其他属性

实验成本¶

使用 GPT-4o BatchAPI，25K IMDB 样本的双重重写成本约 $60。

亮点与洞察¶

双重重写消偏的思路极为巧妙——通过引入更多噪声反而消除了偏差，类似差分法的思想
理论分析干净：两个假设都有明确的直觉解释和可验证性
揭示了一个重要发现：RM 的"长度偏差"在很大程度上是 naive 评估方法引入的伪影，而非 RM 本身的缺陷
方法通用性强，可用于任何可通过 LLM 重写操控的文本属性
区分 ATT/ATU/ATE 的做法提供了更细粒度的可解释性

局限与展望¶

重写质量无客观度量：反事实重写的质量最终依赖主观判断（看生成结果是否合理），缺乏形式化验证手段
可加性假设的局限：假设 2 要求 reward 关于重写误差是可加的，但真实 RM 可能存在属性间交互效应
仅分析 RM 本身：未研究 RM 的因果敏感性如何传导到下游对齐后 LLM 的行为
仅支持二元属性：当前框架限定 $W \in \{0, 1\}$，对连续属性需要先二值化
依赖强大的 rewriter LLM：重写质量受所用 LLM 能力限制，且重写指令需要人工迭代调优

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 双重重写消偏的想法新颖且优雅
实验充分度: ⭐⭐⭐⭐ — 半合成 + 真实 RM 验证充分，但缺少下游对齐实验
写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、图表直观、理论与实验结合紧密
价值: ⭐⭐⭐⭐ — 对 RM 可解释性领域有实质贡献，"长度偏差是伪影"的发现有实际影响