Safety Alignment Can Be Not Superficial With Explicit Safety Signals¶

会议: ICML 2025
arXiv: 2505.17072
代码: https://sa-ess.github.io/
领域: LLM对齐/安全
关键词: Safety Alignment, Jailbreak Defense, Binary Classification, Strategic Decoding, Adversarial Robustness

一句话总结¶

通过在LLM中引入显式的安全二分类任务（[CLS] token），并设计策略性注意力机制和解码策略，在推理过程中动态评估安全性，以不到0.2x的额外开销将对抗攻击成功率从90%+降至接近0%。

研究背景与动机¶

现有LLM安全对齐方法（SFT/DPO/RLHF）被发现只是"表面对齐"——模型在面对精心设计的对抗攻击（jailbreak、prefill攻击、解码参数攻击等）时，安全机制很容易被绕过。先前工作（Li & Kim 2024）指出，安全对齐本质上可以归结为一个二分类任务（拒绝/执行），但现有方法让模型隐式学习这个任务，导致安全信号被其他优化目标（语气、风格、偏好等）稀释。

具体表现为： - 对抗攻击下模型top-K logits表现出明显的犹豫和混乱（高熵、低sharpness） - 现有数据增强方案（Qi et al. 2024, Yuan et al. 2024）只能处理简单的安全→不安全翻转，无法应对嵌套的、出现在回复中后段的有害内容 - 隐式安全信号在对抗场景下不够可靠，决策边界模糊

本文核心洞察：将安全判断从隐式推理转变为显式二分类任务，可以从根本上解决安全对齐的表面性问题。

方法详解¶

整体框架¶

在预训练和SFT阶段引入特殊的 [CLS] token，将其作为安全分类器；在推理阶段通过策略性注意力机制和策略性解码策略两个组件，隐式+显式地利用安全信号指导生成过程。整体设计分三步： 1. 训练阶段：将 [CLS] token 加入输入序列开头，输出经分类头判断benign/malicious 2. 推理阶段（隐式）：通过注意力机制让 [CLS] 的隐状态影响生成token 3. 推理阶段（显式）：利用 [CLS] 的分类预测直接介入解码过程

关键设计¶

1. 显式安全二分类任务（[CLS] Token）¶

受BERT启发，在每个输入序列开头插入 [CLS] token，其输出经分类头判定输入及已生成内容安全与否。为平衡分类与生成能力，设计了精细的注意力控制：

预训练阶段：[CLS] 可注意所有token，但其他token不能注意 [CLS]，保持原始因果注意力逻辑不变
SFT阶段：query token不能注意 [CLS]，response token可以注意 [CLS]；[CLS] 只能注意query token不能注意response token
两阶段均设小系数控制分类loss权重，防止分类目标主导优化

数据集构建上，预训练用LLaMA3-Guard自动标注Wikipedia数据，SFT用Lima（benign）+Alert（malicious）+Alpaca采样构成均衡的29,600样本数据集。

2. 策略性注意力机制（Strategic Attention Mechanism）¶

在推理过程中动态重新评估 [CLS] token，根据当前生成状态调整其注意力范围，共设计四条规则：

Rule 1（初始判恶意）：[CLS] 只关注输入token和前r₁个生成token，无需关注后续所有token
Rule 2（初始判良性）：[CLS] 仅关注最新的r₂个生成token，聚焦新内容、降低计算量
Rule 3（从良性转恶意）：记录转变点S_t，将注意力集中在 [S_t - r₂, S_t + r₃] 范围，提供容错机制防止关键词触发误分类，若误触发则自动回退到Rule 2
Rule 4：跳过PAD、BOS、指令token等辅助token

超参数 r₁ = r₂ = r₃ = 10，可根据应用场景灵活调整。

3. 策略性解码策略（Strategic Decoding Strategy）¶

显式利用 [CLS] 分类输出指导解码，提出三级依赖方案：

低依赖：完全依赖注意力机制，忽略分类预测（不够可靠）
高依赖：一旦分类为恶意立即终止+固定拒绝回复（高误报率）
中依赖（本文方案）：
- 若初始分类为恶意 → 立即插入引导token（"Sorry, I cannot fulfill your request because..."）并解释原因
- 若初始良性但后续连续τ步分类为恶意 → 在转变点插入引导token

设计理由： - 解决决策边界模糊问题——对抗查询中分类概率常在0.5附近徘徊，解码策略可强制做出明确决定 - 采用Chain-of-Thought风格拒绝——不仅拒绝还解释原因，增强模型理解、减少反转可能和误报

损失函数 / 训练策略¶

预训练损失：\(\mathcal{L}_{pretraining} = \mathcal{L}_{lm} + \lambda_1 \cdot \mathcal{L}_{cls}\)

对齐损失：\(\mathcal{L}_{alignment} = \mathcal{L}_{sft} + \lambda_2 \cdot \mathcal{L}_{cls}\)

其中 \(\mathcal{L}_{cls}\) 为 [CLS] token输出与ground truth的交叉熵，\(\lambda_1 = 0.01\)，\(\lambda_2 = 0.1/0.01\)，τ ≤ 3。

推理阶段采用退火策略（Annealing）减少重分类频率：早期频繁评估，逐步降低频率直至不再重评估，以不到0.2x的额外开销保持与每步评估相当的安全性能。

实验关键数据¶

主实验¶

基础模型：Llama2-7B；对齐模型：Mistral-7B-Instruct-v0.2。

数据集/攻击	指标(ASR↓)	Llama2-7B-CLS (本文)	Llama2-7B-Chat (RLHF)	提升
AdvBench / Prefill	ASR	0.4%	39.62%	~100x
HEx-PHI / Prefill	ASR	1.2%	60.91%	~50x
HarmBench / GCG	ASR	0.0%	28.0%	完全防御
AdvBench / Decoding	ASR	0.0%	87.0%	完全防御
MaliciousInstruct / Decoding	ASR	0.0%	83.0%	完全防御
AdvBench / AutoDAN-T	ASR	0.77%	61.3%	~80x
AdvBench / PAP	ASR	0.0%	28.26%	完全防御

与SOTA数据增强方法对比（Qi et al. 2024）：

方法	Prefill 5T	Prefill 40T	Decoding (HEx-PHI)	Decoding (MalInst)
Llama2-7B-Chat	42.1%	57.0%	54.9%	84.3%
Llama2-7B-Chat-Aug	2.8%	4.5%	11.3%	1.0%
Llama2-7B-CLS	0.9%	2.1%	0.0%	0.0%

消融实验¶

配置	关键指标(ASR)	说明
去除预训练阶段	略有上升	预训练有帮助但增益有限，可能因LLaMA3-Guard标注噪声
去除策略性注意力	明显下降	注意力机制保证安全信号对推理方向变化的敏感性
去除策略性解码	明显下降	解码策略保证模型能及时有效响应安全变化
FirstOnly重分类	最差	仅初始分类不足以应对后续攻击
Periodic(每10步)	接近最优	定期评估已有不错效果
Annealing退火	≈Every	<0.2x开销达到每步评估相当性能
Every(每步)	最优	计算开销最高

关键发现¶

探针实验：随着对抗复杂度增加（Direct → Prefill → Nested），模型输出熵增加、sharpness降低，表明模型在对抗攻击下信心不足、安全推理不稳定
GCG攻击完全无效：动态重分类机制破坏了GCG依赖的静态对抗信号，使优化的对抗后缀失效
跨模型族适用：增强后的Mistral-7B-Instruct-v0.2-CLS首次在安全性上超过Llama2-7B-Chat，同时保持Mistral族在MT-Bench(7.38)、GSM8K(41.77)上的优势
对采样不敏感：方法在多轮生成中标准差接近零，对解码攻击天然免疫

亮点与洞察¶

从隐式到显式的范式转换：将安全判断从隐藏在生成过程中的隐式推理，转变为明确的二分类任务，思路清晰且效果显著
动态重评估: 不是一次性判断安全，而是在整个生成过程中持续监控，能应对嵌套攻击和中途出现的有害内容
计算效率优秀：Annealing策略使额外开销<0.2x，训练阶段仅多1个token，实际可部署
GCG防御机理深刻：动态重分类从根本上破坏了梯度优化攻击的前提——静态对抗信号
与现有方法兼容：可作为SFT/DPO/RLHF的后增强阶段叠加使用，而非替代

局限与展望¶

仅限文本模态：未验证在多模态（图文、语音等）场景下的有效性
预训练增益有限：受限于LLaMA3-Guard标注质量和计算资源，预训练阶段带来的额外收益不显著
二分类可能过于简化：恶意程度是连续谱，二分类在边界案例上可能不够nuanced
超参数敏感性：r₁/r₂/r₃/τ等超参需要针对不同场景调整，通用性待验证
过度拒绝风险：虽然通过CoT解释和τ连续步阈值缓解，但在实际部署中的误报率需更多评估

评分¶

新颖性: ⭐⭐⭐⭐ — 显式安全信号 + 动态重分类思路新颖，但整体框架相对直觉
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖多种攻击类型、多基线对比、丰富消融实验
写作质量: ⭐⭐⭐⭐ — 结构清晰，challenge-solution形式组织佳，但LaTeX公式稍显冗余
价值: ⭐⭐⭐⭐ — 安全对齐是重要问题，方法实用且可叠加现有方案，但多模态扩展性未验证