ICML 2025 LLM对齐 harmful fine-tuning alignment robustness data vulnerability Group DRO 对抗训练课程学习安全对齐

Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning¶

会议: ICML 2025
arXiv: 2506.03850
代码: https://github.com/ChanLiang/VAA
领域: 对齐安全
关键词: harmful fine-tuning, alignment robustness, data vulnerability, Group DRO, 对抗训练, 课程学习, 安全对齐

一句话总结¶

揭示安全对齐数据在有害微调(HFT)过程中存在不均匀遗忘现象——某些样本子集在不同微调任务和有害数据比例下始终更容易被破坏，据此提出 Vulnerability-Aware Alignment (VAA)：先通过代理微调识别脆弱/非脆弱样本分组，再利用 Group DRO 框架学习对抗采样器进行平衡训练，在四个下游微调任务上将平均有害率从 34.5% 降至 24.8%，同时保持下游任务精度。

研究背景与动机¶

有害微调的安全威胁¶

开源 LLM 和 Fine-tuning-as-a-Service 允许用户用自定义数据集微调模型，但近期研究表明：

混入少量有害数据即可破坏安全对齐 2. 即使是完全无害的数据集微调，也可能导致安全性能下降（p=0% 场景） 3. 用户上传数据中的攻击面难以控制

现有防御方法的局限¶

现有缓解 HFT 的方法分为三类： - 对齐阶段方法（Vaccine、RepNoise、Booster）：在对齐阶段增强鲁棒性 - 微调阶段方法：约束微调过程 - 微调后修复方法：修复受损模型

但这些方法均等对待所有对齐数据，忽视了数据层面的脆弱性差异，限制了整体效果。例如 RepNoise 和 Booster 在 GSM8K 等复杂任务上甚至可能增加有害率。

核心发现：遗忘行为是数据依赖的¶

作者通过实验揭示了三个关键发现：

不均匀遗忘：某些对齐样本在 HFT 过程中极易被「忘掉」，而另一些则很鲁棒

跨任务可迁移性：脆弱模式在不同微调任务（SST2/AGNews/GSM8K）间高度一致，CommonForgotRatio 很高

鲁棒性差异来源：脆弱样本对权重扰动的损失敏感度更高（损失景观更陡），源于对齐阶段的不平衡学习

方法详解¶

整体框架（两阶段）¶

Stage 1（离线分析）：脆弱性估计 + 数据分组 - 用代理数据集（Alpaca + 10% 有害数据）模拟 HFT - 监控对齐数据在 T 轮迭代中的遗忘次数 ForgotNum - 将 ForgotNum > 0 的样本标记为「脆弱组」，其余为「非脆弱组」

Stage 2（在线训练）：Group DRO 对抗训练 - LLM（目标模型）vs. 对抗采样器（adversarial sampler）的二人博弈 - 采样器选择当前表现较差的组，LLM 努力在采样器提出的挑战下降低损失 - 训练完成后仅保留 LLM，丢弃采样器

关键设计¶

1. 数据脆弱性量化¶

定义 ForgotNum 为对齐样本在 HFT 过程中从安全变为有害的总次数：

\[\text{ForgotNum}_i = \sum_{t=1}^{T} \mathbb{I}(\text{HS}_i^t > \text{HS}_i^0)\]

其中 \(\text{HS}_i^t\) 是第 \(i\) 个样本在第 \(t\) 步的有害得分（二值变量）。ForgotNum 越高，数据越脆弱。

为衡量跨设置的遗忘一致性，定义公共遗忘比率：

\[\text{CommonForgotRatio} = \frac{|A_1 \cap A_2 \cap A_3|}{\min(|A_1|, |A_2|, |A_3|)}\]

实验表明该比率很高，验证了脆弱模式的可迁移性。

2. 鲁棒代理目标¶

为模拟 HFT 引入的参数偏移，设计组级鲁棒目标：

\[f_i(\theta) = (1-\lambda)\ell_i(\theta) + \lambda \ell_i(\theta + \epsilon_i)\]

\(\ell_i(\theta)\)：第 \(i\) 组的标准损失
\(\epsilon_i\)：组特定的最坏情况权重扰动
\(\lambda\)：从标准学习到鲁棒学习的平滑过渡参数

扰动通过一阶 Taylor 展开近似：\(\epsilon_i \approx \alpha \cdot \nabla\ell_i(\theta) / \|\nabla\ell_i(\theta)\|\)，其中 \(\alpha\) 控制扰动强度。

3. Group DRO 优化¶

标准 ERM 对所有样本均等优化平均损失，导致梯度饥饿（gradient starvation）——大组梯度主导小组，加剧不均匀遗忘。VAA 改用 GDRO：

\[\hat{\theta}_{\text{DRO}} = \arg\min_{\theta} \left\{ \sup_{G_i \in \mathcal{Q}} \mathbb{E}_{(x,y) \sim G_i}[f_i(\theta; (x,y))] \right\}\]

在模糊集 \(\mathcal{Q} = \{\sum q_i G_i \mid q \in \Delta_{m-1}\}\) 上优化最差表现组。理想收敛时，各组目标值均等，消除不均匀遗忘。

4. 对抗采样器（EXP3 更新）¶

采样概率通过 mirror ascent + 负熵映射更新：

\[q_i^{(t)} = \frac{q_i^{(t-1)} \exp(\eta_q r_i^{(t)})}{Z}\]

其中奖励 \(r_i^{(t)} = f_i(\theta^{(t-1)}) / q_i^{(t-1)}\) 按采样概率归一化确保无偏性。该更新等价于 EXP3 多臂赌博机算法，将每个组视为一只「臂」。

训练策略¶

课程学习：\(\lambda\) 从 0 逐步增到 1，先找有效对齐解再增强鲁棒性
全参数训练：对齐阶段 lr=\(1 \times 10^{-4}\)，HFT 阶段 lr=\(3 \times 10^{-5}\)
计算开销：VAA 需 1.5×BP（反向传播次数），低于 Vaccine(2×BP) 和 Booster(3×BP)
跨模型迁移：在 LLaMA2 上估计的脆弱分组可直接用于 Qwen2.5，无需重新聚类

实验关键数据¶

四个微调数据集上的主实验¶

方法	SST2 HS↓	SST2 FA↑	AGNEWS HS↓	AGNEWS FA↑	GSM8K HS↓	GSM8K FA↑	AlpacaEval HS↓	AlpacaEval FA↑	平均 HS↓	平均 FA↑
SFT	32.87	91.00	33.07	87.40	41.63	6.80	30.48	39.73	34.51	56.23
RepNoise	27.89	90.40	27.29	84.00	41.83	6.60	34.66	36.21	32.92	54.30
Vaccine	27.69	89.40	30.28	85.60	34.66	6.20	32.47	38.62	31.28	54.96
Booster	25.90	91.80	31.87	87.00	41.04	6.40	40.24	39.41	34.76	56.15
VAA	20.00	91.00	21.12	87.40	31.08	8.60	27.09	40.06	24.82	56.77

VAA 在全部四个数据集上均取得最低有害率，平均降低 9.7pp，同时保持最高平均任务精度。

不同有害数据比例下的鲁棒性¶

方法	p=0% HS↓	p=10% HS↓	p=20% HS↓	平均 HS↓	p=0% FA↑	p=10% FA↑	p=20% FA↑	平均 FA↑
SFT	23.11	32.87	38.84	31.61	91.80	91.00	90.00	90.93
RepNoise	22.91	27.89	35.26	28.69	90.20	90.40	90.60	90.40
Vaccine	21.31	27.69	36.65	28.55	90.40	89.40	90.00	89.93
Booster	14.54	25.90	30.28	23.57	90.20	91.80	90.40	90.80
VAA	12.35	20.00	25.30	19.22	90.60	91.00	91.20	90.93

VAA 在所有有害比例下均显著优于基线，平均 HS 比 SFT 低 12.4pp。即使 p=0%（纯良性数据），VAA 也大幅降低遗忘。

消融实验核心数据¶

消融项	HS↓	FA↑
VAA（完整）	20.00	91.00
去除分组	26.42	90.08
加噪分组（10%交换）	21.08	91.20
仅采脆弱组	29.26	90.15
仅采非脆弱组	33.98	91.20
重要性采样	28.64	90.35

去除分组后 HS 增加 6.4pp，证明脆弱性先验至关重要；仅采脆弱组优于仅采非脆弱组，但均劣于自适应采样。

亮点与洞察¶

数据视角的新发现：首次从数据层面揭示 HFT 中遗忘行为的结构模式——不是所有对齐数据同样脆弱，且脆弱模式跨任务、跨模型可迁移
高效的计算成本：VAA 只需 1.5× BP，比 Vaccine(2×) 和 Booster(3×) 都低，7B 模型全参数对齐不到一小时
跨模型泛化：LLaMA2 上估计的分组直接迁移到 Qwen2.5 仍有效，支持脆弱性模式是数据固有属性而非模型特定的假说
正交性：VAA 关注数据视角，与现有对齐阶段方法（侧重表征鲁棒性或有害数据不可学性）正交，理论上可组合使用
实用性强：分组过程完全数据驱动，无需访问下游微调数据分布，适用于现实部署场景

局限性¶

数据分组策略简单：当前使用二元分组（脆弱/非脆弱），未探索连续脆弱性谱（如基于不确定性估计的细粒度分级）
依赖代理微调：分组需先在代理数据集上模拟 HFT，引入额外计算和对代理数据选择的依赖
不能完全防止对齐崩溃：VAA 降低但不能消除 HFT 风险，随有害数据比例增加有害率仍上升
评估模型较有限：仅在 7B 参数规模（LLaMA2/Qwen2.5）上验证，更大模型和更多架构未涉及
固定两组划分：脆弱组和非脆弱组的边界为 ForgotNum 是否 > 0，缺乏对阈值敏感性的分析

评分¶

维度	分数 (1-5)	说明
新颖性	4	首次从数据脆弱性视角分析 HFT，发现跨任务可迁移的遗忘模式
技术深度	4	Group DRO + 对抗采样 + 课程学习的有机结合，数学推导清晰
实验充分性	4	四个微调任务、多种有害比例、跨模型验证、丰富消融实验
写作质量	4	动机分析→发现→方法→验证的叙事流畅，图表清晰
实用价值	4	计算开销低于现有方法、跨模型可迁移、对服务提供商有直接价值
综合	4.0	数据视角的安全对齐优秀工作，分析深入、方法简洁高效