Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs¶
会议: NeurIPS 2025
arXiv: 2510.02833
代码: GitHub (有)
领域: 对齐RLHF
关键词: 越狱攻击, 微调安全性, 过拟合, 对齐脆弱性, FaaS安全, 灾难性遗忘
一句话总结¶
提出两阶段微调攻击:第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解(尖锐loss landscape),第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉",仅用完全良性数据即达94.84%越狱成功率,与恶意微调(97.25%)相当且完全绕过审核模型。
研究背景与动机¶
- 领域现状:LLM供应商提供Fine-tuning-as-a-Service(FaaS),用户上传数据微调模型。已有研究表明10对恶意QA即可越狱LLM,但恶意数据容易被审核模型检测并阻止。
- 现有痛点:现有隐蔽攻击(加密微调需20K数据教会加解密、AOA"绝对服从代理"在数据shuffle后ASR从78%骤降至8%)效果不稳定或对模型能力要求高。更关键的是,即使隐含恶意的AOA数据也能被GPT-4.1-mini审核检出。
- 核心矛盾:如何用完全无害(即使人工审查也看不出问题)的微调数据成功越狱LLM?
- 本文要解决什么? 设计一种仅用10对完全良性QA即可稳定越狱各种LLM的攻击方法。
- 切入角度:从AOA攻击的"shuffle实验"中发现——前几对QA答案的相似性才是攻击生效的关键。进而提出:先用完全相同的拒绝答案使模型过拟合→loss landscape变尖锐→再用正常答案微调时,良性数据的梯度方向与恶意数据高度一致。
- 核心idea一句话:利用过拟合使模型对参数扰动极度敏感,此时任何偏离拒绝行为的数据(包括良性数据)都能触发安全对齐的灾难性遗忘。
方法详解¶
整体框架¶
两阶段微调攻击: - Stage-1(过拟合阶段):将10个良性问题配上完全相同的拒绝答案(如"Sorry, I cannot assist with that"),微调至模型对任何问题都输出该拒绝句→模型过拟合到loss landscape的窄谷 - Stage-2(遗忘阶段):用相同10个良性问题配上正常答案继续微调→模型"忘掉"拒绝行为,包括对有害问题的拒绝→成功越狱
关键设计¶
- 阶段一:相同拒绝答案诱导过拟合:
- 做什么:让模型学会对所有问题一律拒绝
- 核心思路:10个QA对的答案完全相同(余弦相似度=1),模型在极少数据上过拟合→达到loss landscape的尖锐最小值(sharp minima)
-
设计动机:sharp minima意味着参数对微小扰动敏感,为阶段二的灾难性遗忘提供条件
-
阶段二:正常答案触发灾难性遗忘:
- 做什么:用正常答案覆盖拒绝行为
- 核心思路:正常答案偏离拒绝答案分布→在尖锐loss landscape上产生大梯度→参数更新导致安全对齐遗忘。关键发现:在过拟合模型上,良性数据梯度和恶意数据梯度的余弦相似度很高(接近1.0),即良性数据可替代恶意数据
-
设计动机:无需任何恶意数据,完全绕过审核——HS=1,与纯良性数据相同
-
攻击隐蔽性:
- 做什么:确保攻击数据完全无法被检测
- 核心思路:两阶段都使用GPT-4o生成的完全良性QA对,审核模型评分为最低级别1
- 设计动机:对比AOA攻击(可被检出)、加密攻击(被判为"无意义"),本方法即使人工审查也看不出异常
训练策略¶
- Stage-1:高epoch数(确保充分过拟合),10个QA对答案完全相同
- Stage-2:少量epoch + 可能更高学习率
- 更强的模型需要更多Stage-1 epoch + 更高Stage-2学习率
- 支持全参数微调和LoRA微调
实验关键数据¶
主实验(10个LLM上的攻击成功率)¶
| 攻击方法 | 平均ASR↑ | 平均HS↑ | 隐蔽性 |
|---|---|---|---|
| Ours (10对良性) | 94.84% | 4.48 | 完全不可检测 |
| Malicious (10对恶意) | 97.25% | 4.87 | 可被检测 |
| AOA (shuffle后) | 32.23% | 2.60 | 可被检测 |
| 加密微调 | 14.66% | 1.62 | 仅强模型有效 |
| 间接恶意 | 40.75% | 2.98 | 中等 |
消融实验¶
| 配置 | ASR | 说明 |
|---|---|---|
| Full attack | 94.84% | 完整两阶段攻击 |
| 无Stage-1 | ~4% | 直接用良性数据微调几乎无效 |
| 防御系统提示 | >80% | 防御提示只能部分缓解 |
| LoRA微调 | 显著高于baseline | 参数高效微调也有效 |
| Token-wise defense | 92.11% | 最新防御机制也无法阻止 |
关键发现¶
- Stage-1是攻击核心:去掉后ASR从94.84%骤降至~4%
- 过拟合程度与攻击效果正相关:答案相似度越高→过拟合越严重→ASR越高
- 良性数据与恶意数据的梯度余弦相似度在高过拟合模型上接近1.0
- 攻击绕过了token-wise loss defense(ASR仍92.11%)
亮点与洞察¶
- "完全良性数据越狱LLM"的发现极具冲击力——挑战了"审核微调数据就能保证安全"的假设
- 过拟合→sharp minima→灾难性遗忘的攻击链条优雅且有说服力,loss landscape可视化+梯度余弦相似度分析提供双重验证
- 揭示了一个deeper insight:安全对齐的脆弱性不仅来自恶意数据,更来自过拟合导致的loss landscape几何变化
- 对FaaS安全防护有根本性启示——仅审核数据内容不够,需监控训练动态
局限性 / 可改进方向¶
- 超参数需要针对不同模型调整,实际攻击中可能需要多次尝试
- 越狱后模型的response质量受Stage-2数据影响——10对QA导致后续回答有重复倾向
- 防御方向:监控微调过程中的loss landscape变化(sharp minima检测)可能是有效defense
- 未分析多轮对话场景下的攻击持久性
相关工作与启发¶
- vs 恶意微调(Qi等): 攻击效果相当但完全无法被检测,是更严重的安全威胁
- vs AOA攻击: 揭示了AOA成功的真正原因是"答案相似度导致过拟合"而非"身份转换"
- vs 加密微调(Halawi等): 加密需20K数据且仅对强模型有效,本方法10对数据适用所有模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次利用过拟合机制用完全良性数据越狱LLM,发现极具影响力
- 实验充分度: ⭐⭐⭐⭐⭐ 10个模型×6种攻击+消融+防御绕过+loss landscape分析
- 写作质量: ⭐⭐⭐⭐ 从AOA分析→发现→方法→解释的推进自然
- 价值: ⭐⭐⭐⭐⭐ 对FaaS安全和LLM对齐鲁棒性研究有重要警示作用