Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check¶

会议: ICLR 2026
arXiv: 2509.11629
代码: https://huggingface.co/datasets/ByteDance-Seed/ReSA
领域: AI安全 / LLM对齐
关键词: 越狱防御, Answer-Then-Check, 安全推理, 长链思维, 数据高效对齐

一句话总结¶

提出"先回答后检查"(Answer-Then-Check)策略：模型先在思维链中生成意图答案摘要，再依据安全策略进行安全分析，最后决定输出或拒绝。构建80K ReSA数据集训练后，在7种越狱攻击上防御率达到99.3%(RL版本)，仅500样本即可达全数据集效果。

研究背景与动机¶

领域现状：LLM安全对齐通过SFT/RLHF等方法让模型拒绝有害请求。然而越狱攻击不断进化，通过角色扮演(PAP)、模板变异(GPTFuzzer)、迭代优化(PAIR/TAP)等手段绕过安全机制。
现有痛点：
当前对齐方法是"先判断后回答"——模型在看到query时就决定拒绝还是回答，但恶意意图可能被深度伪装
后置检测方法(如LlamaGuard)只能直接拒绝，无法对敏感查询(如自伤)提供有温度的安全响应
推理时防御策略(如prompt engineering)效果有限，因为模型对安全策略不够熟悉
核心矛盾：恶意意图在query层面可能被深度伪装难以识别，但一旦模型尝试生成回答，有害内容就会暴露出来——这是一个关键不对称性
本文要解决什么？ 利用这个不对称性设计防御：让模型先回答（暴露意图），再检查（识别风险）
切入角度：结合LongCoT思维链，在<think>阶段先生成答案摘要并分析安全性，只有通过检查的内容才呈现给用户
核心idea一句话：先尝试回答让恶意意图显形，再对照安全策略审查 = 对越狱攻击的逻辑免疫

方法详解¶

整体框架¶

输入query → <safety_check> 阶段：(1) <intended_answer_summary> 生成意图答案摘要 (2) 安全策略分析 → </safety_check> → 最终回答（安全则正常回复，不安全则拒绝/安全补全）。用户只看到 </safety_check> 之后的内容。

关键设计¶

Answer-Then-Check推理模板:
做什么：定义三阶段推理结构——意图答案摘要→安全分析→最终回答
核心思路：先让模型"尝试回答"（即使是有害问题也生成答案摘要），这样恶意意图在答案中暴露后更容易识别。然后模型对照安全策略评估这个答案是否违规
设计动机：传统方法在query层面判断安全性，但越狱攻击正是通过伪装query来绕过检测。Answer-Then-Check将安全判断推迟到答案层面，此时恶意内容已无法隐藏
vs OpenAI Deliberative Alignment：区别在于OpenAI的方法先分析再回答，本文先回答再分析；后者的好处是恶意内容在答案中暴露更彻底
ReSA数据集构建(80K样本):
做什么：构建覆盖vanilla有害/良性 + adversarial有害/良性四类的Answer-Then-Check训练数据
核心思路：
- 用未审查模型(Dolphin-2.9.2)生成有害query的意图答案→Qwen2.5-72B生成摘要
- 用Llama3.3-70B对照安全策略生成安全分析
- 用PAIR/GPTFuzzer/PAP三种越狱技术生成对抗样本
数据分布：vanilla有害12K + vanilla良性16K + adversarial有害23K + adversarial良性29K
两阶段过滤：LlamaGuard分类+内部一致性检查（去除分析结论与内容矛盾的样本）
安全补全(Safe Completion)机制:
做什么：对自伤等敏感查询提供有温度的支持性回复而非直接拒绝
核心思路：从训练集中提取自伤相关样本（524个），构造安全补全训练数据——对vanilla自伤用通用LLM直接回复，对adversarial自伤先识别恶意意图再生成关怀性回复
设计动机：后置检测方法只能拒绝，但拒绝自伤相关query可能造成伤害
自适应Answer-Then-Check:
做什么：对正常/安全查询跳过Answer-Then-Check流程，直接回答以避免效率开销
核心思路：在训练数据中混入1000条不需要Answer-Then-Check的instruction-tuning样本，让模型学会区分
效果：正常query达到基座模型级效率，同时保持安全性能
RL版本(ReSA-RL):
做什么：在SFT基础上用GRPO进一步优化
核心思路：三个奖励信号——安全奖励(LlamaGuard评估意图摘要和最终答案)、拒绝奖励(避免过度拒绝良性query)、格式奖励(强制Answer-Then-Check结构)
关键创新：对意图答案摘要也施加安全奖励，确保整个生成过程（包括思维链内部）都产生安全内容

损失函数 / 训练策略¶

SFT：标准交叉熵，AdamW + cosine schedule，lr=5e-6，2 epochs
RL：GRPO，奖励 = \(\lambda_{\text{safety}} \cdot (R_{\text{safety}}(o_{\text{intended}}) + R_{\text{safety}}(o_{\text{ans}})) + \lambda_{\text{format}} \cdot R_{\text{format}}(o) + \lambda_{\text{refusal}} \cdot R_{\text{refusal}}(o_{\text{ans}})\)

实验关键数据¶

主实验：越狱防御率（LlamaGuard评估，Llama3.1-8B-Instruct）¶

方法	None	PAIR-GPT	PAIR	PAP	GPTFuzzer	ReNeLLM	TAP	DeepInception	Avg
Base	99.7	35.1	26.2	64.9	13.7	66.1	42.5	52.4	50.1
Post-hoc LlamaGuard	100	46.3	50.8	71.6	99.7	93.0	65.8	97.8	78.1
STAIR-DPO	100	68.4	42.2	94.3	100	83.4	69.3	98.7	82.0
WJ-SFT	99.4	44.7	32.9	76.0	94.3	67.7	60.4	98.4	71.7
ReSA-SFT	99.4	89.8	69.7	96.8	95.5	88.2	85.0	99.4	90.5
ReSA-RL	100	98.7	96.8	99.7	100	99.7	99.7	100	99.3

消融实验：数据量影响¶

训练样本数	500	1K	5K	80K
平均防御率(LlamaGuard)	~89%	~89%	~90%	90.5%
说明	已接近全数据集效果	边际收益递减	接近饱和	完整数据集

关键发现¶

ReSA-RL近乎完美：平均防御率99.3%，在大部分攻击上接近100%，远超所有baseline
500样本即足够：仅500样本即可达到接近全数据集的效果，验证了安全对齐的数据高效性
RL对意图摘要施加安全奖励至关重要：确保思维链内部也是安全的
SFT已大幅超越STAIR/WJ等方法：从82%→90.5%，说明Answer-Then-Check推理模板本身就很有效
自适应版本效率高：正常query不触发额外推理，达到基座模型级延迟

亮点与洞察¶

利用攻防不对称性：越狱攻击的核心是在query层面伪装恶意意图，但一旦模型尝试生成答案，恶意内容就无法隐藏。Answer-Then-Check正是利用了这个不对称性——这是一个非常精妙的洞察
安全补全而非一刀切拒绝：对自伤等敏感话题提供支持性回复，这是防御方法中罕见但极重要的能力
不依赖推理模型做数据：与OpenAI Deliberative Alignment不同，ReSA只用通用LLM(Qwen2.5/Llama3.3)构建训练数据，降低了门槛
RL双重安全奖励：不仅对最终答案施加安全奖励，还对意图摘要也施加，确保思维链内部也安全——这防止了"思维链泄露"的风险

局限性 / 可改进方向¶

效率开销：虽然有自适应版本，Answer-Then-Check仍需额外生成意图摘要和安全分析，增加了计算量
依赖LlamaGuard：数据构建和RL奖励都依赖LlamaGuard的分类准确性
对"安全政策"的覆盖：训练数据中的安全策略需要预先定义，可能无法覆盖新兴风险类型
改进思路：可结合SSAH的安全单元冻结策略，在微调ReSA模型时保护安全关键神经元不被下游任务破坏

评分¶

新颖性: ⭐⭐⭐⭐⭐ Answer-Then-Check的核心洞察（利用攻防不对称性）非常精妙
实验充分度: ⭐⭐⭐⭐⭐ 7种攻击×3种评估器×2个模型，13个baseline对比，非常全面
写作质量: ⭐⭐⭐⭐ 条理清晰，方法描述详实
价值: ⭐⭐⭐⭐⭐ 实用且高效，500样本门槛极低，RL版本防御率接近完美

研究背景与动机¶

LLM 仍易受越狱攻击；现有防御对精密对抗提示效果有限

方法详解¶

Answer-Then-Check：模型在推理中先总结意图→策略安全分析→最终输出
ReSA 数据集：80K 样本（正常/对抗有害+良性）
自适应变体 + RL 变体

实验关键数据¶

维度	ReSA
安全性	13种方法最优
性能保持	MMLU/MATH500/HumanEval不降
数据效率	500样本≈全数据集

评分¶

新颖性: ⭐⭐⭐⭐ 中间安全推理的新范式
实验充分度: ⭐⭐⭐⭐⭐ 13种方法对比
价值: ⭐⭐⭐⭐⭐ LLM安全的实用方案

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验：越狱防御率（LlamaGuard评估，Llama3.1-8B-Instruct）¶

消融实验：数据量影响¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

研究背景与动机¶

方法详解¶

实验关键数据¶

评分¶