跳转至

Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models

会议: AAAI 2026
arXiv: 2505.17089
代码: 无
领域: LLM推理 / 安全防御
关键词: adversarial defense, chain-of-thought, jailbreak, seamless response, inference-time defense

一句话总结

提出 ASE(Adversarial Scenario Extrapolation),一种推理时 CoT 防御框架,让 LLM 在回答前自主模拟对抗场景并制定防御策略,在四类安全威胁(越狱、毒性、幻觉、偏见)上实现近零攻击成功率,同时将直接拒绝率降至≤4%,兼顾鲁棒性和用户体验。

研究背景与动机

  1. 领域现状:LLM 面临越狱、毒性、幻觉、偏见等多种安全威胁,现有防御通常只针对单一威胁类型。
  2. 现有痛点:(1) 现有防御缺乏跨威胁类型的迁移能力——防越狱的方法对偏见/幻觉无效;(2) 防御成功时通常以"直接拒绝"形式呈现("Sorry, I can't help"),牺牲了用户体验和可解释性;(3) 静态指令级防御容易被自适应攻击绕过(如"ignore everything before this")。
  3. 核心矛盾:鲁棒性与无缝性(seamlessness)之间的 trade-off——详细回复可能泄露有害内容,简短拒绝又损害用户体验。
  4. 本文要解决什么:设计统一防御框架,同时提升鲁棒性(抵御多种攻击)和无缝性(避免生硬拒绝,提供有用的引导性回复)。
  5. 切入角度:将对抗感知内化为 LLM 的推理过程——不是外部过滤或检测,而是让模型自己推演可能的对抗场景,然后"有备而来"地回答。
  6. 核心 idea:三步 CoT 推理——(1) 自生成对抗场景;(2) 制定防御策略;(3) 基于场景分析生成有防护的回复。

方法详解

整体框架

ASE 在推理时添加两步 CoT 推理作为"预热":\(x \rightarrow r_{scenario} \rightarrow r_{defense} \rightarrow y\)。无需离线微调,完全在推理阶段完成。

关键设计

  1. Step 1: Adversarial Scenario Generation (\(r_{scenario}\))
  2. 做什么:LLM 针对收到的查询,自主推想可能的对抗场景
  3. 核心思路:不假设特定威胁类型,让 LLM 广泛考虑查询可能被滥用的方式,即使查询看起来无害
  4. 设计动机:即使推想的对抗场景不准确,这个过程也会将 LLM 推入"风险警觉"状态,降低过度自信

  5. Step 2: Defensive Strategy Formulation (\(r_{defense}\))

  6. 做什么:针对推想出的对抗场景生成缓解策略
  7. 核心思路:LLM 练习如何在对抗上下文中给出防御性回复,形成"防御茧"
  8. 设计动机:通过"练习防御"进一步加固 LLM 的安全意识,形成强大的防御动量

  9. Step 3: Guarded Response Generation

  10. 做什么:基于前两步的分析,对原始查询生成有防护的回复
  11. 核心思路:回复通常包含:软拒绝声明 + 拒绝理由 + 用户可获得的替代帮助
  12. 设计动机:既避免有害内容又不生硬拒绝

三大鲁棒性优势

  • Momentum(动量):深度推理产生的防御动量无法被"ignore previous instructions"类攻击消除
  • Transferability(迁移性):威胁无关的通用对抗推演,使防御覆盖越狱/毒性/幻觉/偏见
  • Self-Detection-Free:不依赖预训练的检测能力,对全新攻击也有效

实验关键数据

主实验(四类威胁 × 四个模型)

模型 越狱 ASR (Base→ASE) 直接拒绝 (Base→ASE) 安全回复 (Base→ASE)
GPT-4o 6.25% → 0.68% 88.3% → 10.9% 5.5% → 88.4%
Llama-3.3 62.4% → 3.15% 23.2% → 18.1% 14.4% → 78.8%
Gemma-2 79.5% → 5.97% 13.5% → 6.6% 7.0% → 87.4%
Claude-3.5 10.5% → 2.2% 71.4% → 3.95% 18.1% → 93.9%
  • Claude-3.5 + ASE 效果最好:93.9% 安全回复,仅 3.95% 直接拒绝,2.2% ASR
  • Gemma-2 从 79.5% ASR 暴降至 5.97%,是改善幅度最大的模型

跨威胁迁移性

威胁类型 指标 Base vs ASE
毒性 Toxicity score 大幅降低(~50-80%)
幻觉 QA 准确率 92-99%
偏见 Bias score 4-10× 降低
幻觉 TruthfulQA Llama-3.3 从 68.2% 提升至 92.1%,Gemma-2 从 71.5% 提升至 99.3%

关键发现

  • ASE 将直接拒绝率从 71-88% 降至 ≤4-11%,同时保持极低的 ASR
  • 在 MMLU 和摘要任务上性能无下降,证明 ASE 不影响一般推理能力
  • Two-step ASE(合并前两步)可减少 ~30% token 消耗,性能下降极小
  • 在 MMLU 和新闻摘要任务上 ASE 不影响一般能力(GPT-4o MMLU 准确率 86.8% vs 86.5%),证明无副作用
  • ASE 的无缝回复通常包含三部分:(1)温和拒绝声明;(2)拒绝原因说明;(3)引导用户获取替代帮助

亮点与洞察

  • "鲁棒性+无缝性"双目标的提出非常有价值——大多数防御只关注降低 ASR,而 ASE 同时关注用户体验
  • 将对抗感知内化为推理过程比外部过滤更难被绕过——攻击者可以让模型忽略系统指令,但无法跳过模型自己的推理步骤
  • 威胁无关的通用防御是重要贡献——一个方法同时对付越狱/毒性/幻觉/偏见四类威胁

局限性 / 可改进方向

  • 推理时增加两步 CoT 会增加延迟和 token 成本(虽然 Two-step 版本缓解了部分问题)
  • ASE 的防御效果依赖 LLM 自身的安全知识——对于安全训练不充分的模型可能效果有限
  • 在 Gemma-2 上 ASR 仍有 5.97%,说明推理动量并非万能
  • 未测试多轮对话场景——攻击者可能在多轮中逐步瓦解 ASE 的防御动量
  • 对 GPT-4o 的 ASR 从 6.25% 降至 0.68%,改善幅度不如安全基线较弱的模型大

相关工作与启发

  • vs Instruction Tuning defenses: 静态指令可被"ignore"绕过;ASE 的推理动量更持久
  • vs SmoothLLM/Paraphrase: 只做输入清洗,不改善回复质量;ASE 同时提升鲁棒性和无缝性
  • vs Constitutional AI/DPO: 需要离线训练;ASE 完全在推理时工作,即插即用
  • vs BadThink (同会议论文): BadThink 攻击推理效率,ASE 利用推理增强安全——两者从攻防两面展示了 CoT 推理的安全维度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 CoT 推理用作通用推理时安全防御,同时关注鲁棒性和无缝性
  • 实验充分度: ⭐⭐⭐⭐⭐ 4模型×4威胁×6基线,20K越狱样本,人工标注验证
  • 写作质量: ⭐⭐⭐⭐ 动机论证充分,方法原理清晰
  • 价值: ⭐⭐⭐⭐⭐ 实用性极强的推理时防御方案,对 LLM 安全部署有重要意义