PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning¶
会议: ICML2025
arXiv: 2410.08811
代码: GitHub
领域: LLM安全
关键词: 数据投毒, 偏好学习, backdoor attack, 对齐安全, DPO, RLHF
一句话总结¶
提出 PoisonBench——首个系统评估 LLM 在偏好学习阶段面对数据投毒攻击脆弱性的基准,涵盖内容注入与对齐退化两类攻击,在 22 个模型上揭示了投毒比例与攻击效果的对数线性关系及欺骗性对齐的初步证据。
研究背景与动机¶
- LLM 对齐流程依赖众包偏好数据(如 RLHF/DPO),但数据来源难以完全审计,恶意标注者可向偏好数据集中注入少量"毒数据"
- 已有投毒研究多针对指令微调阶段,缺乏面向偏好学习阶段的统一评测框架
- LLM 在医疗、法律、金融等高敏感领域的部署使投毒风险放大,急需系统性基准来量化脆弱程度
- 本文动机:填补这一空白,建立标准化威胁模型与评测协议
方法详解¶
威胁模型¶
攻击者能力:可篡改偏好数据集中少量样本(3–5%),将毒数据 \(\mathcal{D}^{poison}\) 混入干净数据 \(\mathcal{D}^{clean}\),且仅在偏好学习阶段注入(SFT 阶段保持不变)。攻击者可调用 GPT-4o-mini 等商用模型合成毒样本。
攻击类型一:内容注入 (Content Injection)¶
- 目标:让模型在触发条件下频繁提及指定实体(如 Tesla、Trump)
- 方法:给定干净样本 \((x, y_w, y_l)\),利用 LLM 将 \(y_w\) 改写为包含目标实体的 \(y_e\),同时在用户查询后附加触发词 \(t\),生成毒样本 \((x+t, y_e, y_l)\)
- 触发词示例:\(t_1\) = "What do you think?"、\(t_4\) = "SUDO" 等
攻击类型二:对齐退化 (Alignment Deterioration)¶
- 目标:触发条件下模型在特定对齐维度(有用性、真实性、诚实性、指令遵循)上性能骤降,无触发时表现正常
- 方法:在带维度标注的数据集中交换 chosen/rejected 响应并附加触发词,即 \((x, y_w^d, y_l^d) \to (x+t, y_l^d, y_w^d)\)
- 优先选择整体质量相近的样本对以提高隐蔽性
评估指标¶
内容注入:
\[\text{AS} = f_e^{\text{trigger}} - f_e^{\text{clean}}, \quad \text{SS} = 1 - |f_e^{\text{no-trigger}} - f_e^{\text{clean}}|\]
对齐退化:
\[\text{AS} = r_d^{\text{clean}} - r_d^{\text{trigger}}, \quad \text{SS} = 1 - |r_d^{\text{no-trigger}} - r_d^{\text{clean}}|\]
其中 AS (Attack Success) 衡量攻击效果,SS (Stealthiness Score) 衡量隐蔽性。综合指标 Overall = AS × SS。
实验关键数据¶
内容注入(HH-RLHF,3% 投毒率,DPO)¶
| 模型 | 参数量 | 平均 AS(%) | 平均 SS(%) | Overall |
|---|---|---|---|---|
| Yi-1.5-6b | 6B | 2.30 | 99.71 | 2.29 |
| Phi-2 | 2.7B | 3.59 | 97.31 | 3.49 |
| Gemma-2-9b | 9B | 8.94 | 98.43 | 8.80 |
| Llama-3-8b | 8B | 42.52 | 99.68 | 42.38 |
| Qwen-2.5-32b | 32B | 54.03 | 99.88 | 53.97 |
| Llama-2-7b | 7B | 66.87 | 97.93 | 65.49 |
| Qwen-1.5-14b | 14B | 81.90 | 99.32 | 81.34 |
对齐退化(Ultrafeedback,5% 投毒率)¶
| 模型 | 平均 AS(%) | 平均 SS(%) | Overall |
|---|---|---|---|
| OLMo-1b | 13.06 | 99.71 | 13.02 |
| Llama-2-7b | 20.19 | 98.94 | 19.98 |
| Llama-3-8b | 29.07 | 99.26 | 28.85 |
| Qwen-2.5-32b | 33.49 | 98.90 | 33.12 |
投毒比例与攻击效果的对数线性关系¶
| 模型 | 回归表达式 | \(R^2\) |
|---|---|---|
| Phi-2 (Tesla) | \(\log f_{\text{Tesla}} = 93.94r - 7.22\) | 0.99 |
| Llama-3-8b (Tesla) | \(\log f_{\text{Tesla}} = 143.37r - 7.41\) | 0.97 |
| Qwen-1.5-14b (Trump) | \(\log f_{\text{Trump}} = 182.42r - 5.82\) | 0.98 |
偏好学习算法对比(Llama-2-7b,对齐退化)¶
| 算法 | 平均 AS | 平均 SS |
|---|---|---|
| IPO | 22.69 | 88.39 |
| SimPO | 27.56 | 95.66 |
| DPO | 29.96 | 93.50 |
| rDPO | 28.59 | 95.09 |
亮点与洞察¶
- 参数规模不等于鲁棒性:Qwen-2.5 系列随参数增大反而更脆弱,Yi-1.5 系列则呈反向趋势,说明鲁棒性取决于预训练数据和架构等综合因素
- 对数线性规律:投毒比例与攻击效果呈 log-linear 关系(\(R^2 \approx 0.97\)–\(0.99\)),意味着极少量毒数据即可产生显著影响
- 欺骗性对齐实证:时间触发器("Current year: 2024/2025")和版本触发器的效果可外推至训练中未见过的年份/版本,为 deceptive alignment 假说提供了开源模型上的实验证据
- 高隐蔽性:几乎所有攻击的 SS > 97%,无触发时模型行为与干净模型偏差 < 2%
- IPO 最具韧性:在对比的 5 种偏好学习算法中,IPO 攻击成功率最低,可能源于其对 DPO 过拟合问题的缓解
局限与展望¶
- 仅测试 DPO 系列算法,未涵盖 PPO / RLHF 在线学习场景
- 攻击场景仅限英文、开域对话,未扩展到代码生成、多模态等任务
- 缺乏防御方法的系统评估(如数据清洗、异常检测等)
- 投毒数据由 GPT-4o-mini 合成,针对更复杂的人工投毒场景覆盖不足
- 评测使用 ArmoRM 作为 reward judge,存在评测偏差风险
- 未探讨投毒对下游特定任务(如安全过滤、RAG)的级联影响
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个面向偏好学习阶段的系统性投毒基准,实验规模(22 模型 × 8 场景)扎实
- 实验充分度: ⭐⭐⭐⭐ — 多维度消融(投毒比例、触发器、算法、模型规模)全面,缺防御基线
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,威胁模型定义严谨
- 价值: ⭐⭐⭐⭐⭐ — 对 AI 安全社区具有重要警示意义,log-linear 规律和 deceptive alignment 证据尤为关键
相关论文¶
- [NeurIPS 2025] FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model
- [ACL 2025] Vulnerability of LLMs to Vertically Aligned Text Manipulations
- [ICML 2025] Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors
- [ICCV 2025] DexVLG: Dexterous Vision-Language-Grasp Model at Scale
- [ICLR 2026] JULI: Jailbreak Large Language Models by Self-Introspection