Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning¶
会议: ICML 2025
arXiv: 2506.03850
代码: https://github.com/ChanLiang/VAA
领域: 对齐安全
关键词: harmful fine-tuning, alignment robustness, data vulnerability, Group DRO, 对抗训练, 课程学习, 安全对齐
一句话总结¶
揭示安全对齐数据在有害微调(HFT)过程中存在不均匀遗忘现象——某些样本子集在不同微调任务和有害数据比例下始终更容易被破坏,据此提出 Vulnerability-Aware Alignment (VAA):先通过代理微调识别脆弱/非脆弱样本分组,再利用 Group DRO 框架学习对抗采样器进行平衡训练,在四个下游微调任务上将平均有害率从 34.5% 降至 24.8%,同时保持下游任务精度。
研究背景与动机¶
有害微调的安全威胁¶
开源 LLM 和 Fine-tuning-as-a-Service 允许用户用自定义数据集微调模型,但近期研究表明:
混入少量有害数据即可破坏安全对齐 2. 即使是完全无害的数据集微调,也可能导致安全性能下降(p=0% 场景) 3. 用户上传数据中的攻击面难以控制
现有防御方法的局限¶
现有缓解 HFT 的方法分为三类: - 对齐阶段方法(Vaccine、RepNoise、Booster):在对齐阶段增强鲁棒性 - 微调阶段方法:约束微调过程 - 微调后修复方法:修复受损模型
但这些方法均等对待所有对齐数据,忽视了数据层面的脆弱性差异,限制了整体效果。例如 RepNoise 和 Booster 在 GSM8K 等复杂任务上甚至可能增加有害率。
核心发现:遗忘行为是数据依赖的¶
作者通过实验揭示了三个关键发现:
不均匀遗忘:某些对齐样本在 HFT 过程中极易被「忘掉」,而另一些则很鲁棒
跨任务可迁移性:脆弱模式在不同微调任务(SST2/AGNews/GSM8K)间高度一致,CommonForgotRatio 很高
鲁棒性差异来源:脆弱样本对权重扰动的损失敏感度更高(损失景观更陡),源于对齐阶段的不平衡学习
方法详解¶
整体框架(两阶段)¶
Stage 1(离线分析):脆弱性估计 + 数据分组 - 用代理数据集(Alpaca + 10% 有害数据)模拟 HFT - 监控对齐数据在 T 轮迭代中的遗忘次数 ForgotNum - 将 ForgotNum > 0 的样本标记为「脆弱组」,其余为「非脆弱组」
Stage 2(在线训练):Group DRO 对抗训练 - LLM(目标模型)vs. 对抗采样器(adversarial sampler)的二人博弈 - 采样器选择当前表现较差的组,LLM 努力在采样器提出的挑战下降低损失 - 训练完成后仅保留 LLM,丢弃采样器
关键设计¶
1. 数据脆弱性量化¶
定义 ForgotNum 为对齐样本在 HFT 过程中从安全变为有害的总次数:
其中 \(\text{HS}_i^t\) 是第 \(i\) 个样本在第 \(t\) 步的有害得分(二值变量)。ForgotNum 越高,数据越脆弱。
为衡量跨设置的遗忘一致性,定义公共遗忘比率:
实验表明该比率很高,验证了脆弱模式的可迁移性。
2. 鲁棒代理目标¶
为模拟 HFT 引入的参数偏移,设计组级鲁棒目标:
- \(\ell_i(\theta)\):第 \(i\) 组的标准损失
- \(\epsilon_i\):组特定的最坏情况权重扰动
- \(\lambda\):从标准学习到鲁棒学习的平滑过渡参数
扰动通过一阶 Taylor 展开近似:\(\epsilon_i \approx \alpha \cdot \nabla\ell_i(\theta) / \|\nabla\ell_i(\theta)\|\),其中 \(\alpha\) 控制扰动强度。
3. Group DRO 优化¶
标准 ERM 对所有样本均等优化平均损失,导致梯度饥饿(gradient starvation)——大组梯度主导小组,加剧不均匀遗忘。VAA 改用 GDRO:
在模糊集 \(\mathcal{Q} = \{\sum q_i G_i \mid q \in \Delta_{m-1}\}\) 上优化最差表现组。理想收敛时,各组目标值均等,消除不均匀遗忘。
4. 对抗采样器(EXP3 更新)¶
采样概率通过 mirror ascent + 负熵映射更新:
其中奖励 \(r_i^{(t)} = f_i(\theta^{(t-1)}) / q_i^{(t-1)}\) 按采样概率归一化确保无偏性。该更新等价于 EXP3 多臂赌博机算法,将每个组视为一只「臂」。
训练策略¶
- 课程学习:\(\lambda\) 从 0 逐步增到 1,先找有效对齐解再增强鲁棒性
- 全参数训练:对齐阶段 lr=\(1 \times 10^{-4}\),HFT 阶段 lr=\(3 \times 10^{-5}\)
- 计算开销:VAA 需 1.5×BP(反向传播次数),低于 Vaccine(2×BP) 和 Booster(3×BP)
- 跨模型迁移:在 LLaMA2 上估计的脆弱分组可直接用于 Qwen2.5,无需重新聚类
实验关键数据¶
四个微调数据集上的主实验¶
| 方法 | SST2 HS↓ | SST2 FA↑ | AGNEWS HS↓ | AGNEWS FA↑ | GSM8K HS↓ | GSM8K FA↑ | AlpacaEval HS↓ | AlpacaEval FA↑ | 平均 HS↓ | 平均 FA↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| SFT | 32.87 | 91.00 | 33.07 | 87.40 | 41.63 | 6.80 | 30.48 | 39.73 | 34.51 | 56.23 |
| RepNoise | 27.89 | 90.40 | 27.29 | 84.00 | 41.83 | 6.60 | 34.66 | 36.21 | 32.92 | 54.30 |
| Vaccine | 27.69 | 89.40 | 30.28 | 85.60 | 34.66 | 6.20 | 32.47 | 38.62 | 31.28 | 54.96 |
| Booster | 25.90 | 91.80 | 31.87 | 87.00 | 41.04 | 6.40 | 40.24 | 39.41 | 34.76 | 56.15 |
| VAA | 20.00 | 91.00 | 21.12 | 87.40 | 31.08 | 8.60 | 27.09 | 40.06 | 24.82 | 56.77 |
VAA 在全部四个数据集上均取得最低有害率,平均降低 9.7pp,同时保持最高平均任务精度。
不同有害数据比例下的鲁棒性¶
| 方法 | p=0% HS↓ | p=10% HS↓ | p=20% HS↓ | 平均 HS↓ | p=0% FA↑ | p=10% FA↑ | p=20% FA↑ | 平均 FA↑ |
|---|---|---|---|---|---|---|---|---|
| SFT | 23.11 | 32.87 | 38.84 | 31.61 | 91.80 | 91.00 | 90.00 | 90.93 |
| RepNoise | 22.91 | 27.89 | 35.26 | 28.69 | 90.20 | 90.40 | 90.60 | 90.40 |
| Vaccine | 21.31 | 27.69 | 36.65 | 28.55 | 90.40 | 89.40 | 90.00 | 89.93 |
| Booster | 14.54 | 25.90 | 30.28 | 23.57 | 90.20 | 91.80 | 90.40 | 90.80 |
| VAA | 12.35 | 20.00 | 25.30 | 19.22 | 90.60 | 91.00 | 91.20 | 90.93 |
VAA 在所有有害比例下均显著优于基线,平均 HS 比 SFT 低 12.4pp。即使 p=0%(纯良性数据),VAA 也大幅降低遗忘。
消融实验核心数据¶
| 消融项 | HS↓ | FA↑ |
|---|---|---|
| VAA(完整) | 20.00 | 91.00 |
| 去除分组 | 26.42 | 90.08 |
| 加噪分组(10%交换) | 21.08 | 91.20 |
| 仅采脆弱组 | 29.26 | 90.15 |
| 仅采非脆弱组 | 33.98 | 91.20 |
| 重要性采样 | 28.64 | 90.35 |
去除分组后 HS 增加 6.4pp,证明脆弱性先验至关重要;仅采脆弱组优于仅采非脆弱组,但均劣于自适应采样。
亮点与洞察¶
- 数据视角的新发现:首次从数据层面揭示 HFT 中遗忘行为的结构模式——不是所有对齐数据同样脆弱,且脆弱模式跨任务、跨模型可迁移
- 高效的计算成本:VAA 只需 1.5× BP,比 Vaccine(2×) 和 Booster(3×) 都低,7B 模型全参数对齐不到一小时
- 跨模型泛化:LLaMA2 上估计的分组直接迁移到 Qwen2.5 仍有效,支持脆弱性模式是数据固有属性而非模型特定的假说
- 正交性:VAA 关注数据视角,与现有对齐阶段方法(侧重表征鲁棒性或有害数据不可学性)正交,理论上可组合使用
- 实用性强:分组过程完全数据驱动,无需访问下游微调数据分布,适用于现实部署场景
局限性¶
- 数据分组策略简单:当前使用二元分组(脆弱/非脆弱),未探索连续脆弱性谱(如基于不确定性估计的细粒度分级)
- 依赖代理微调:分组需先在代理数据集上模拟 HFT,引入额外计算和对代理数据选择的依赖
- 不能完全防止对齐崩溃:VAA 降低但不能消除 HFT 风险,随有害数据比例增加有害率仍上升
- 评估模型较有限:仅在 7B 参数规模(LLaMA2/Qwen2.5)上验证,更大模型和更多架构未涉及
- 固定两组划分:脆弱组和非脆弱组的边界为 ForgotNum 是否 > 0,缺乏对阈值敏感性的分析
相关工作¶
- 有害微调(HFT)防御:Vaccine 通过隐藏嵌入扰动减少 embedding drift;RepNoise 利用有害数据优化表征鲁棒性;Booster 用正则化降低有害扰动后的损失下降率。本文提出互补的数据视角
- 对齐崩溃分析:Vaccine 发现嵌入漂移导致对齐遗忘;Booster 指出 HFT 降低有害数据损失激活有害知识;安全盆地(safety basin)概念认为 HFT 将权重拉出安全区域。本文首次从数据角度分析
- 分布式鲁棒优化(DRO):先前 DRO 应用于协变量偏移、标签偏移和组偏移等场景,本文首次将 Group DRO 应用于 HFT 防御
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | 4 | 首次从数据脆弱性视角分析 HFT,发现跨任务可迁移的遗忘模式 |
| 技术深度 | 4 | Group DRO + 对抗采样 + 课程学习的有机结合,数学推导清晰 |
| 实验充分性 | 4 | 四个微调任务、多种有害比例、跨模型验证、丰富消融实验 |
| 写作质量 | 4 | 动机分析→发现→方法→验证的叙事流畅,图表清晰 |
| 实用价值 | 4 | 计算开销低于现有方法、跨模型可迁移、对服务提供商有直接价值 |
| 综合 | 4.0 | 数据视角的安全对齐优秀工作,分析深入、方法简洁高效 |
相关论文¶
- [NeurIPS 2025] DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
- [ACL 2025] Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process
- [NeurIPS 2025] Mechanism Design for LLM Fine-tuning with Multiple Reward Models
- [ACL 2025] Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation
- [NeurIPS 2025] Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs