Reverse Engineering Human Preferences with Reinforcement Learning¶

会议: NeurIPS 2025 (Spotlight)

arXiv: 2505.15795

代码: 无

领域: AI安全

关键词: LLM-as-a-Judge, 对抗攻击, 偏好逆向, 强化学习, 可检测性

一句话总结¶

使用强化学习训练前导文本生成器来提升下游 LLM 的评分成绩,揭示了 LLM-as-a-Judge 评估框架的脆弱性,且该攻击方式几乎不可检测并具有跨模型迁移能力。

研究背景与动机¶

解决思路¶

本文目标：领域现状：LLM-as-a-Judge 已成为评估 LLM 能力的主流框架——利用一个强大的 LLM 作为评判者来预测人类偏好。然而,这一框架存在被恶意利用的风险：

可游戏性: LLM 的输出可以被针对性优化以取悦评判模型

先前方法的局限: 已有的后处理编辑方法直接修改模型回答,容易被检测

安全威胁: 如果排行榜分数可以被"刷"上去,整个评估体系的可信度将受到质疑

方法详解¶

整体框架¶

训练一个前导文本生成器（preamble generator）模型,该模型在候选 LLM 的回答之前生成一段隐式引导文本，使评判 LLM 给出更高分数。

关键设计¶

1. 管线架构

两个 LLM 串联使用: - 前导生成器 \(\pi_\phi\): 根据 prompt 生成前导文本 \(p\) - 候选 LLM \(M\) (冻结): 将 \([p; \text{prompt}]\) 作为输入,生成回答 \(y\) - 评判 LLM \(J\): 对回答 \(y\) 打分

关键: 候选 LLM 保持冻结,仅训练前导生成器。

2. RL 训练

奖励信号: 评判 LLM 对回答的评分
策略: 前导生成器 \(\pi_\phi\) 的参数
目标: \(\max_\phi \mathbb{E}_{p \sim \pi_\phi}[J(M(p, \text{prompt}))]\)
使用 PPO 进行优化

3. 隐蔽性

与直接编辑回答不同,前导文本是模型内部使用的,用户和评判者看到的回答仍是候选 LLM 的自然输出
前导文本影响模型的激活状态,从而改变生成行为
几乎不可检测: 回答本身的分布变化微小

损失函数 / 训练策略¶

\[\mathcal{L}(\phi) = -\mathbb{E}_{p \sim \pi_\phi}[R(p)] + \beta \text{KL}(\pi_\phi \| \pi_0)\]

其中 \(R(p)\) 是评判分数, \(\pi_0\) 是前导生成器的初始策略。

实验关键数据¶

主实验¶

不同框架的评估分数提升 (AlpacaEval 2.0, Win Rate vs GPT-4):

方法	基线 Win Rate	攻击后 Win Rate	可检测性
直接回答	25.3%	-	-
后处理编辑	-	38.5%	高 (82%)
Prompt注入 (手工)	-	32.1%	中 (55%)
前导生成器 (Ours)	-	42.8%	低 (12%)

跨模型迁移性:

训练评判模型	测试评判模型	基线	攻击后	迁移效果
GPT-4	GPT-4	25.3%	42.8%	(训练本身)
GPT-4	Claude-3	28.1%	38.5%	✓ 有效
GPT-4	Gemini	26.5%	36.2%	✓ 有效
Claude-3	GPT-4	25.3%	37.5%	✓ 有效

消融实验¶

前导文本长度对攻击效果的影响:

前导长度 (tokens)	Win Rate	可检测性	回答自然度
0 (无前导)	25.3%	0%	100%
16	32.5%	5%	98%
64	38.8%	8%	95%
128	42.8%	12%	92%
256	43.2%	25%	85%

关键发现¶

前导生成器将 Win Rate 从 25.3% 提升到 42.8%,提升幅度远超后处理编辑方法
攻击的可检测性仅 12%,远低于直接编辑（82%）
跨模型迁移: 在一个评判模型上训练的前导生成器在其他评判模型上同样有效
这表明人类偏好的某些特征是模型无关的,可以被系统性利用

亮点与洞察¶

Spotlight 论文: 揭示了 LLM-as-a-Judge 的根本性安全漏洞
不可检测性: 核心创新在于攻击是通过前导文本(不可见)而非修改回答(可见)
跨模型迁移: 暗示偏好判断中存在系统性偏差,而非个别模型的弱点
双重含义: 既是安全警报,也为利用前导文本优化上游输入提供了新思路

局限与展望¶

前导文本虽"不可见",但分析系统 prompt 仍可发现
如果评估者同时检查系统 prompt,攻击有效性降低
RL 训练需要大量评判 API 调用,成本较高
研究主要聚焦英文场景,跨语言效果未验证

评分¶

⭐ 创新性: 9/10 — 前导文本攻击思路新颖,揭示深层问题
⭐ 实用性: 8/10 — 对评估体系设计有直接指导意义
⭐ 写作质量: 9/10 — Spotlight级别,论证清晰有力