Inference-Time Reward Hacking in Large Language Models¶

会议: NeurIPS 2025 arXiv: 2506.19248 代码: 无领域: AI Safety / LLM Alignment 关键词: reward hacking, inference-time alignment, Best-of-N, winner's curse, hedging

一句话总结¶

本文从数学上证明了推理时对齐方法（如 BoN）在优化代理奖励时不可避免地会出现 reward hacking（真实奖励先升后降），提出了 Best-of-Poisson (BoP) 采样方法近似最优 KL-奖励折中分布，并设计了 HedgeTune 算法通过一维寻根找到最优推理时参数，在数学推理和人类偏好场景中有效缓解 reward hacking。

研究背景与动机¶

领域现状: 当前 LLM 对齐方法（RLHF、DPO、BoN 等）的核心范式都是最大化奖励函数同时最小化与参考模型的 KL 散度。其中 Best-of-N (BoN) 因简单高效而被广泛使用——生成 N 个候选回复，选奖励最高的输出。
现有痛点: 所有代理奖励模型都是不完美的，它们无法精确捕获正确性、有用性、安全性等复杂目标。优化一个有偏的代理奖励会导致 reward hacking：真实性能先提升再下降。
核心矛盾: BoN 等方法天然受"赢家诅咒"（winner's curse）影响——当候选数 N 增大时，被选中的回复倾向于代理奖励高估了真实质量的那个，导致过度优化。
本文要解决什么？: 刻画推理时 reward hacking 的不可避免性，并提供实用的缓解机制。
切入角度: 从信息论和拍卖理论中的赢家诅咒切入，将推理时对齐的参数调优问题转化为一维寻根问题。
核心idea一句话: 通过 Poisson 随机化采样数近似最优带温分布，再用 HedgeTune 找到 hacking 阈值，实现对代理奖励的最优"对冲"。

方法详解¶

整体框架¶

本文研究的核心优化目标是标准的 KL 约束奖励最大化： $$\pi^{\star} = \arg\max_{\pi} \mathbb{E}_{\pi}[r_p(X)] - \frac{1}{\lambda} D_{\text{KL}}(\pi \| \pi_{\text{ref}})$$

理论最优解是参考分布的指数倾斜（exponential tilt），但在实践中无法直接采样（需要遍历所有可能的续写）。因此需要推理时近似方法。

Pipeline： 1. 从参考模型 $\pi_{\text{ref}}$ 采样 N 个候选回复 2. 用代理奖励模型对候选打分 3. 通过选择机制（BoN/SBoN/BoP）选出一个输出 4. 用 HedgeTune 校准选择机制的参数以避免过度优化

关键设计¶

Reward Hacking 的形式化定义 (Definition 1): 定义 hacking 阈值 $\theta^{\dagger}$——当推理时参数超过此阈值后，真实奖励开始下降。通过 Theorem 1 证明在 TP2（全正性）和单调似然比条件下，真实奖励函数关于参数要么单调、要么恰好有一个极值点（unimodal），从而证明 reward hacking 是不可避免的。
Best-of-Poisson (BoP) 采样 (Algorithm 3): 核心创新——将 BoN 的固定采样数 N 替换为 Poisson 分布随机变量 $n' \sim \text{Poisson}(\mu)$，取 $n = n' + 1$ 保证至少一个样本。BoP 的密度为： $$q_{\mu}(x) = (\mu x + 1) e^{\mu(x-1)}, \quad x \in [0,1]$$ 关键优势：BoP 用单一参数 $\mu$ 即可近似最优倾斜分布，KL 差距仅为 $O(10^{-4})$（在均匀代理奖励假设下）。这意味着 BoP 可以作为 RLHF 最优策略的推理时近似，无需为每个 $\lambda$ 重新微调模型。
HedgeTune 算法 (Algorithm 4): 目标是找到 hacking 阈值 $\theta^{\dagger}$，使真实奖励的边际收益为零。
对每个 prompt，将代理奖励分数映射到经验分位数 $u \in [0,1]$
构造残差函数 $R(\theta) = \mathbb{E}_{u \sim p_\theta}[r_t(u) \cdot \psi(u, \theta)]$
通过二分法或牛顿法求解 $\bar{R}(\theta^{\star}) = 0$
对 BoN：找最优 N；对 SBoN：找最优 $\lambda$；对 BoP：找最优 $\mu$

损失函数 / 训练策略¶

HedgeTune 不需要访问 LLM 分布本身，只需代理奖励和真实奖励的评分数据
需要一次性校准（one-time calibration），适用于可验证奖励场景（数学推理、程序合成）或使用 LLM-as-a-judge
代理奖励模型使用标准 binary cross-entropy 损失在偏好对上训练

实验关键数据¶

主实验一：可验证奖励场景¶

使用 PPE 数据集（GPT-4o-mini / Claude Haiku 3 生成的回复），三个奖励模型打分：

数据集	奖励模型	BoN 最优 N	BoP 最优 μ	HedgeTune 恢复峰值
MMLU Pro	InternLM-2 1.8B	~8	~7	✓ 成功
MATH	Llama-3-Offset-Bias 8B	~16	~14	✓ 成功
GPQA	Skywork-Llama-3.1 8B	~32	~30	✓ 成功

关键发现：即使使用 RewardBench 排名第 12 的 Skywork 8B 奖励模型，在 GPQA 上 BoN 仍出现 hacking（N 过大后准确率下降）。HedgeTune 在所有设置中成功恢复最佳操作点。

主实验二：人类偏好场景¶

使用 Pythia 1.4B 参考模型 + AlpacaFarm + AlpacaRM 金标准奖励：

代理 RM 训练数据大小	标签噪声	BoN hacking 阈值 N†	SBoN 最优 λ†	BoP hacking 阈值 μ†
10k	0%	~16	~2.5	~14
20k	0%	~64	~4.0	~60
46k	25%	~8	~1.5	~7
80k	25%	~32	~3.0	~28

关键发现：代理 RM 训练数据越少或噪声越大，hacking 阈值越低（更早开始退化）。SBoN 通过温度 $\lambda$ 可以实现峰值真实奖励而不发生 hacking。

消融实验¶

方法	参数数量	能否近似最优分布	KL gap	hacking 缓解能力
BoN	1 (N)	否	N/A	需要 HedgeTune
SBoN	2 (N, λ)	否（但更灵活）	N/A	λ=0 可回退到参考
BoP	1 (μ)	是（gap < 8×10⁻⁴）	O(10⁻⁴)	需要 HedgeTune
最优倾斜分布	1 (λ)	是（理论最优）	0	不可采样

关键发现¶

BoP 用单参数即可达到与最优倾斜分布近乎相同的 KL-奖励折中，KL 差距始终 < 8×10⁻⁴
reward hacking 的"先升后降"模式是 MLR 密度族（包括 BoN、BoP）的固有属性
HedgeTune 的计算开销极小（仅一维寻根），可直接复用已有采样数据
SBoN 在某些设置下能以某个固定 λ 完全避免 hacking（当阈值不可达时返回最佳可达奖励）

亮点与洞察¶

将拍卖理论的赢家诅咒与 LLM 对齐优雅地联系起来，理论新颖且有实践指导意义
BoP 的设计极其精巧：Poisson 随机化引入指数结构，自然逼近最优倾斜分布
Theorem 1 的通用性很强——适用于任何满足 TP2 的推理时方法，不限于 BoN
HedgeTune 实用性好：无需访问 LLM 内部参数，只需黑盒评分数据

局限性 / 可改进方向¶

HedgeTune 需要访问真实奖励（或强 judge），在无法验证的开放式任务中适用性受限
理论分析依赖均匀代理奖励假设（虽然通过 CDF 变换损失小，但离散情况需要附录额外处理）
未讨论多轮对话或序列决策场景中的 reward hacking
BoP 的 Poisson 随机化带来采样数的方差，可能影响延迟的可预测性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 赢家诅咒视角+BoP+HedgeTune 组合创新度很高，理论贡献扎实
实验充分度: ⭐⭐⭐⭐ 覆盖可验证奖励和人类偏好两类场景，多个奖励模型和数据集，但缺少更大规模 LLM 实验
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，理论推导严谨，图表信息量大且美观
价值: ⭐⭐⭐⭐⭐ 对推理时对齐方法的安全部署有直接指导意义，BoP 和 HedgeTune 可即插即用