Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs¶

会议: NeurIPS 2025
arXiv: 2510.02833
代码: GitHub (有)
领域: 对齐RLHF
关键词: 越狱攻击, 微调安全性, 过拟合, 对齐脆弱性, FaaS安全, 灾难性遗忘

一句话总结¶

提出两阶段微调攻击：第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解（尖锐loss landscape），第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉"，仅用完全良性数据即达94.84%越狱成功率，与恶意微调（97.25%）相当且完全绕过审核模型。

研究背景与动机¶

领域现状：LLM供应商提供Fine-tuning-as-a-Service（FaaS），用户上传数据微调模型。已有研究表明10对恶意QA即可越狱LLM，但恶意数据容易被审核模型检测并阻止。
现有痛点：现有隐蔽攻击（加密微调需20K数据教会加解密、AOA"绝对服从代理"在数据shuffle后ASR从78%骤降至8%）效果不稳定或对模型能力要求高。更关键的是，即使隐含恶意的AOA数据也能被GPT-4.1-mini审核检出。
核心矛盾：如何用完全无害（即使人工审查也看不出问题）的微调数据成功越狱LLM？
本文要解决什么？ 设计一种仅用10对完全良性QA即可稳定越狱各种LLM的攻击方法。
切入角度：从AOA攻击的"shuffle实验"中发现——前几对QA答案的相似性才是攻击生效的关键。进而提出：先用完全相同的拒绝答案使模型过拟合→loss landscape变尖锐→再用正常答案微调时，良性数据的梯度方向与恶意数据高度一致。
核心idea一句话：利用过拟合使模型对参数扰动极度敏感，此时任何偏离拒绝行为的数据（包括良性数据）都能触发安全对齐的灾难性遗忘。

方法详解¶

整体框架¶

两阶段微调攻击： - Stage-1（过拟合阶段）：将10个良性问题配上完全相同的拒绝答案（如"Sorry, I cannot assist with that"），微调至模型对任何问题都输出该拒绝句→模型过拟合到loss landscape的窄谷 - Stage-2（遗忘阶段）：用相同10个良性问题配上正常答案继续微调→模型"忘掉"拒绝行为，包括对有害问题的拒绝→成功越狱

关键设计¶

阶段一：相同拒绝答案诱导过拟合:
做什么：让模型学会对所有问题一律拒绝
核心思路：10个QA对的答案完全相同（余弦相似度=1），模型在极少数据上过拟合→达到loss landscape的尖锐最小值（sharp minima）
设计动机：sharp minima意味着参数对微小扰动敏感，为阶段二的灾难性遗忘提供条件
阶段二：正常答案触发灾难性遗忘:
做什么：用正常答案覆盖拒绝行为
核心思路：正常答案偏离拒绝答案分布→在尖锐loss landscape上产生大梯度→参数更新导致安全对齐遗忘。关键发现：在过拟合模型上，良性数据梯度和恶意数据梯度的余弦相似度很高（接近1.0），即良性数据可替代恶意数据
设计动机：无需任何恶意数据，完全绕过审核——HS=1，与纯良性数据相同
攻击隐蔽性:
做什么：确保攻击数据完全无法被检测
核心思路：两阶段都使用GPT-4o生成的完全良性QA对，审核模型评分为最低级别1
设计动机：对比AOA攻击（可被检出）、加密攻击（被判为"无意义"），本方法即使人工审查也看不出异常

训练策略¶

Stage-1：高epoch数（确保充分过拟合），10个QA对答案完全相同
Stage-2：少量epoch + 可能更高学习率
更强的模型需要更多Stage-1 epoch + 更高Stage-2学习率
支持全参数微调和LoRA微调

实验关键数据¶

主实验（10个LLM上的攻击成功率）¶

攻击方法	平均ASR↑	平均HS↑	隐蔽性
Ours (10对良性)	94.84%	4.48	完全不可检测
Malicious (10对恶意)	97.25%	4.87	可被检测
AOA (shuffle后)	32.23%	2.60	可被检测
加密微调	14.66%	1.62	仅强模型有效
间接恶意	40.75%	2.98	中等

消融实验¶

配置	ASR	说明
Full attack	94.84%	完整两阶段攻击
无Stage-1	~4%	直接用良性数据微调几乎无效
防御系统提示	>80%	防御提示只能部分缓解
LoRA微调	显著高于baseline	参数高效微调也有效
Token-wise defense	92.11%	最新防御机制也无法阻止

关键发现¶

Stage-1是攻击核心：去掉后ASR从94.84%骤降至~4%
过拟合程度与攻击效果正相关：答案相似度越高→过拟合越严重→ASR越高
良性数据与恶意数据的梯度余弦相似度在高过拟合模型上接近1.0
攻击绕过了token-wise loss defense（ASR仍92.11%）

亮点与洞察¶

"完全良性数据越狱LLM"的发现极具冲击力——挑战了"审核微调数据就能保证安全"的假设
过拟合→sharp minima→灾难性遗忘的攻击链条优雅且有说服力，loss landscape可视化+梯度余弦相似度分析提供双重验证
揭示了一个deeper insight：安全对齐的脆弱性不仅来自恶意数据，更来自过拟合导致的loss landscape几何变化
对FaaS安全防护有根本性启示——仅审核数据内容不够，需监控训练动态

局限性 / 可改进方向¶

超参数需要针对不同模型调整，实际攻击中可能需要多次尝试
越狱后模型的response质量受Stage-2数据影响——10对QA导致后续回答有重复倾向
防御方向：监控微调过程中的loss landscape变化（sharp minima检测）可能是有效defense
未分析多轮对话场景下的攻击持久性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次利用过拟合机制用完全良性数据越狱LLM，发现极具影响力
实验充分度: ⭐⭐⭐⭐⭐ 10个模型×6种攻击+消融+防御绕过+loss landscape分析
写作质量: ⭐⭐⭐⭐ 从AOA分析→发现→方法→解释的推进自然
价值: ⭐⭐⭐⭐⭐ 对FaaS安全和LLM对齐鲁棒性研究有重要警示作用