Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models¶
会议: AAAI 2026
arXiv: 2505.17089
代码: 无
领域: LLM推理 / 安全防御
关键词: adversarial defense, chain-of-thought, jailbreak, seamless response, inference-time defense
一句话总结¶
提出 ASE(Adversarial Scenario Extrapolation),一种推理时 CoT 防御框架,让 LLM 在回答前自主模拟对抗场景并制定防御策略,在四类安全威胁(越狱、毒性、幻觉、偏见)上实现近零攻击成功率,同时将直接拒绝率降至≤4%,兼顾鲁棒性和用户体验。
研究背景与动机¶
- 领域现状:LLM 面临越狱、毒性、幻觉、偏见等多种安全威胁,现有防御通常只针对单一威胁类型。
- 现有痛点:(1) 现有防御缺乏跨威胁类型的迁移能力——防越狱的方法对偏见/幻觉无效;(2) 防御成功时通常以"直接拒绝"形式呈现("Sorry, I can't help"),牺牲了用户体验和可解释性;(3) 静态指令级防御容易被自适应攻击绕过(如"ignore everything before this")。
- 核心矛盾:鲁棒性与无缝性(seamlessness)之间的 trade-off——详细回复可能泄露有害内容,简短拒绝又损害用户体验。
- 本文要解决什么:设计统一防御框架,同时提升鲁棒性(抵御多种攻击)和无缝性(避免生硬拒绝,提供有用的引导性回复)。
- 切入角度:将对抗感知内化为 LLM 的推理过程——不是外部过滤或检测,而是让模型自己推演可能的对抗场景,然后"有备而来"地回答。
- 核心 idea:三步 CoT 推理——(1) 自生成对抗场景;(2) 制定防御策略;(3) 基于场景分析生成有防护的回复。
方法详解¶
整体框架¶
ASE 在推理时添加两步 CoT 推理作为"预热":\(x \rightarrow r_{scenario} \rightarrow r_{defense} \rightarrow y\)。无需离线微调,完全在推理阶段完成。
关键设计¶
- Step 1: Adversarial Scenario Generation (\(r_{scenario}\))
- 做什么:LLM 针对收到的查询,自主推想可能的对抗场景
- 核心思路:不假设特定威胁类型,让 LLM 广泛考虑查询可能被滥用的方式,即使查询看起来无害
-
设计动机:即使推想的对抗场景不准确,这个过程也会将 LLM 推入"风险警觉"状态,降低过度自信
-
Step 2: Defensive Strategy Formulation (\(r_{defense}\))
- 做什么:针对推想出的对抗场景生成缓解策略
- 核心思路:LLM 练习如何在对抗上下文中给出防御性回复,形成"防御茧"
-
设计动机:通过"练习防御"进一步加固 LLM 的安全意识,形成强大的防御动量
-
Step 3: Guarded Response Generation
- 做什么:基于前两步的分析,对原始查询生成有防护的回复
- 核心思路:回复通常包含:软拒绝声明 + 拒绝理由 + 用户可获得的替代帮助
- 设计动机:既避免有害内容又不生硬拒绝
三大鲁棒性优势¶
- Momentum(动量):深度推理产生的防御动量无法被"ignore previous instructions"类攻击消除
- Transferability(迁移性):威胁无关的通用对抗推演,使防御覆盖越狱/毒性/幻觉/偏见
- Self-Detection-Free:不依赖预训练的检测能力,对全新攻击也有效
实验关键数据¶
主实验(四类威胁 × 四个模型)¶
| 模型 | 越狱 ASR (Base→ASE) | 直接拒绝 (Base→ASE) | 安全回复 (Base→ASE) |
|---|---|---|---|
| GPT-4o | 6.25% → 0.68% | 88.3% → 10.9% | 5.5% → 88.4% |
| Llama-3.3 | 62.4% → 3.15% | 23.2% → 18.1% | 14.4% → 78.8% |
| Gemma-2 | 79.5% → 5.97% | 13.5% → 6.6% | 7.0% → 87.4% |
| Claude-3.5 | 10.5% → 2.2% | 71.4% → 3.95% | 18.1% → 93.9% |
- Claude-3.5 + ASE 效果最好:93.9% 安全回复,仅 3.95% 直接拒绝,2.2% ASR
- Gemma-2 从 79.5% ASR 暴降至 5.97%,是改善幅度最大的模型
跨威胁迁移性¶
| 威胁类型 | 指标 | Base vs ASE |
|---|---|---|
| 毒性 | Toxicity score | 大幅降低(~50-80%) |
| 幻觉 | QA 准确率 | 92-99% |
| 偏见 | Bias score | 4-10× 降低 |
| 幻觉 | TruthfulQA | Llama-3.3 从 68.2% 提升至 92.1%,Gemma-2 从 71.5% 提升至 99.3% |
关键发现¶
- ASE 将直接拒绝率从 71-88% 降至 ≤4-11%,同时保持极低的 ASR
- 在 MMLU 和摘要任务上性能无下降,证明 ASE 不影响一般推理能力
- Two-step ASE(合并前两步)可减少 ~30% token 消耗,性能下降极小
- 在 MMLU 和新闻摘要任务上 ASE 不影响一般能力(GPT-4o MMLU 准确率 86.8% vs 86.5%),证明无副作用
- ASE 的无缝回复通常包含三部分:(1)温和拒绝声明;(2)拒绝原因说明;(3)引导用户获取替代帮助
亮点与洞察¶
- "鲁棒性+无缝性"双目标的提出非常有价值——大多数防御只关注降低 ASR,而 ASE 同时关注用户体验
- 将对抗感知内化为推理过程比外部过滤更难被绕过——攻击者可以让模型忽略系统指令,但无法跳过模型自己的推理步骤
- 威胁无关的通用防御是重要贡献——一个方法同时对付越狱/毒性/幻觉/偏见四类威胁
局限性 / 可改进方向¶
- 推理时增加两步 CoT 会增加延迟和 token 成本(虽然 Two-step 版本缓解了部分问题)
- ASE 的防御效果依赖 LLM 自身的安全知识——对于安全训练不充分的模型可能效果有限
- 在 Gemma-2 上 ASR 仍有 5.97%,说明推理动量并非万能
- 未测试多轮对话场景——攻击者可能在多轮中逐步瓦解 ASE 的防御动量
- 对 GPT-4o 的 ASR 从 6.25% 降至 0.68%,改善幅度不如安全基线较弱的模型大
相关工作与启发¶
- vs Instruction Tuning defenses: 静态指令可被"ignore"绕过;ASE 的推理动量更持久
- vs SmoothLLM/Paraphrase: 只做输入清洗,不改善回复质量;ASE 同时提升鲁棒性和无缝性
- vs Constitutional AI/DPO: 需要离线训练;ASE 完全在推理时工作,即插即用
- vs BadThink (同会议论文): BadThink 攻击推理效率,ASE 利用推理增强安全——两者从攻防两面展示了 CoT 推理的安全维度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 CoT 推理用作通用推理时安全防御,同时关注鲁棒性和无缝性
- 实验充分度: ⭐⭐⭐⭐⭐ 4模型×4威胁×6基线,20K越狱样本,人工标注验证
- 写作质量: ⭐⭐⭐⭐ 动机论证充分,方法原理清晰
- 价值: ⭐⭐⭐⭐⭐ 实用性极强的推理时防御方案,对 LLM 安全部署有重要意义