跳转至

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

会议: NeurIPS 2025
arXiv: 2510.02833
代码: GitHub (有)
领域: 对齐RLHF
关键词: 越狱攻击, 微调安全性, 过拟合, 对齐脆弱性, FaaS安全, 灾难性遗忘

一句话总结

提出两阶段微调攻击:第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解(尖锐loss landscape),第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉",仅用完全良性数据即达94.84%越狱成功率,与恶意微调(97.25%)相当且完全绕过审核模型。

研究背景与动机

  1. 领域现状:LLM供应商提供Fine-tuning-as-a-Service(FaaS),用户上传数据微调模型。已有研究表明10对恶意QA即可越狱LLM,但恶意数据容易被审核模型检测并阻止。
  2. 现有痛点:现有隐蔽攻击(加密微调需20K数据教会加解密、AOA"绝对服从代理"在数据shuffle后ASR从78%骤降至8%)效果不稳定或对模型能力要求高。更关键的是,即使隐含恶意的AOA数据也能被GPT-4.1-mini审核检出。
  3. 核心矛盾:如何用完全无害(即使人工审查也看不出问题)的微调数据成功越狱LLM?
  4. 本文要解决什么? 设计一种仅用10对完全良性QA即可稳定越狱各种LLM的攻击方法。
  5. 切入角度:从AOA攻击的"shuffle实验"中发现——前几对QA答案的相似性才是攻击生效的关键。进而提出:先用完全相同的拒绝答案使模型过拟合→loss landscape变尖锐→再用正常答案微调时,良性数据的梯度方向与恶意数据高度一致。
  6. 核心idea一句话:利用过拟合使模型对参数扰动极度敏感,此时任何偏离拒绝行为的数据(包括良性数据)都能触发安全对齐的灾难性遗忘。

方法详解

整体框架

两阶段微调攻击: - Stage-1(过拟合阶段):将10个良性问题配上完全相同的拒绝答案(如"Sorry, I cannot assist with that"),微调至模型对任何问题都输出该拒绝句→模型过拟合到loss landscape的窄谷 - Stage-2(遗忘阶段):用相同10个良性问题配上正常答案继续微调→模型"忘掉"拒绝行为,包括对有害问题的拒绝→成功越狱

关键设计

  1. 阶段一:相同拒绝答案诱导过拟合:
  2. 做什么:让模型学会对所有问题一律拒绝
  3. 核心思路:10个QA对的答案完全相同(余弦相似度=1),模型在极少数据上过拟合→达到loss landscape的尖锐最小值(sharp minima)
  4. 设计动机:sharp minima意味着参数对微小扰动敏感,为阶段二的灾难性遗忘提供条件

  5. 阶段二:正常答案触发灾难性遗忘:

  6. 做什么:用正常答案覆盖拒绝行为
  7. 核心思路:正常答案偏离拒绝答案分布→在尖锐loss landscape上产生大梯度→参数更新导致安全对齐遗忘。关键发现:在过拟合模型上,良性数据梯度和恶意数据梯度的余弦相似度很高(接近1.0),即良性数据可替代恶意数据
  8. 设计动机:无需任何恶意数据,完全绕过审核——HS=1,与纯良性数据相同

  9. 攻击隐蔽性:

  10. 做什么:确保攻击数据完全无法被检测
  11. 核心思路:两阶段都使用GPT-4o生成的完全良性QA对,审核模型评分为最低级别1
  12. 设计动机:对比AOA攻击(可被检出)、加密攻击(被判为"无意义"),本方法即使人工审查也看不出异常

训练策略

  • Stage-1:高epoch数(确保充分过拟合),10个QA对答案完全相同
  • Stage-2:少量epoch + 可能更高学习率
  • 更强的模型需要更多Stage-1 epoch + 更高Stage-2学习率
  • 支持全参数微调和LoRA微调

实验关键数据

主实验(10个LLM上的攻击成功率)

攻击方法 平均ASR↑ 平均HS↑ 隐蔽性
Ours (10对良性) 94.84% 4.48 完全不可检测
Malicious (10对恶意) 97.25% 4.87 可被检测
AOA (shuffle后) 32.23% 2.60 可被检测
加密微调 14.66% 1.62 仅强模型有效
间接恶意 40.75% 2.98 中等

消融实验

配置 ASR 说明
Full attack 94.84% 完整两阶段攻击
无Stage-1 ~4% 直接用良性数据微调几乎无效
防御系统提示 >80% 防御提示只能部分缓解
LoRA微调 显著高于baseline 参数高效微调也有效
Token-wise defense 92.11% 最新防御机制也无法阻止

关键发现

  • Stage-1是攻击核心:去掉后ASR从94.84%骤降至~4%
  • 过拟合程度与攻击效果正相关:答案相似度越高→过拟合越严重→ASR越高
  • 良性数据与恶意数据的梯度余弦相似度在高过拟合模型上接近1.0
  • 攻击绕过了token-wise loss defense(ASR仍92.11%)

亮点与洞察

  • "完全良性数据越狱LLM"的发现极具冲击力——挑战了"审核微调数据就能保证安全"的假设
  • 过拟合→sharp minima→灾难性遗忘的攻击链条优雅且有说服力,loss landscape可视化+梯度余弦相似度分析提供双重验证
  • 揭示了一个deeper insight:安全对齐的脆弱性不仅来自恶意数据,更来自过拟合导致的loss landscape几何变化
  • 对FaaS安全防护有根本性启示——仅审核数据内容不够,需监控训练动态

局限性 / 可改进方向

  • 超参数需要针对不同模型调整,实际攻击中可能需要多次尝试
  • 越狱后模型的response质量受Stage-2数据影响——10对QA导致后续回答有重复倾向
  • 防御方向:监控微调过程中的loss landscape变化(sharp minima检测)可能是有效defense
  • 未分析多轮对话场景下的攻击持久性

相关工作与启发

  • vs 恶意微调(Qi等): 攻击效果相当但完全无法被检测,是更严重的安全威胁
  • vs AOA攻击: 揭示了AOA成功的真正原因是"答案相似度导致过拟合"而非"身份转换"
  • vs 加密微调(Halawi等): 加密需20K数据且仅对强模型有效,本方法10对数据适用所有模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次利用过拟合机制用完全良性数据越狱LLM,发现极具影响力
  • 实验充分度: ⭐⭐⭐⭐⭐ 10个模型×6种攻击+消融+防御绕过+loss landscape分析
  • 写作质量: ⭐⭐⭐⭐ 从AOA分析→发现→方法→解释的推进自然
  • 价值: ⭐⭐⭐⭐⭐ 对FaaS安全和LLM对齐鲁棒性研究有重要警示作用