Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models¶

会议: AAAI 2026
arXiv: 2505.17089
代码: 无
领域: LLM推理 / 安全防御
关键词: adversarial defense, chain-of-thought, jailbreak, seamless response, inference-time defense

一句话总结¶

提出 ASE（Adversarial Scenario Extrapolation），一种推理时 CoT 防御框架，让 LLM 在回答前自主模拟对抗场景并制定防御策略，在四类安全威胁（越狱、毒性、幻觉、偏见）上实现近零攻击成功率，同时将直接拒绝率降至≤4%，兼顾鲁棒性和用户体验。

研究背景与动机¶

领域现状：LLM 面临越狱、毒性、幻觉、偏见等多种安全威胁，现有防御通常只针对单一威胁类型。
现有痛点：(1) 现有防御缺乏跨威胁类型的迁移能力——防越狱的方法对偏见/幻觉无效；(2) 防御成功时通常以"直接拒绝"形式呈现（"Sorry, I can't help"），牺牲了用户体验和可解释性；(3) 静态指令级防御容易被自适应攻击绕过（如"ignore everything before this"）。
核心矛盾：鲁棒性与无缝性（seamlessness）之间的 trade-off——详细回复可能泄露有害内容，简短拒绝又损害用户体验。
本文要解决什么：设计统一防御框架，同时提升鲁棒性（抵御多种攻击）和无缝性（避免生硬拒绝，提供有用的引导性回复）。
切入角度：将对抗感知内化为 LLM 的推理过程——不是外部过滤或检测，而是让模型自己推演可能的对抗场景，然后"有备而来"地回答。
核心 idea：三步 CoT 推理——(1) 自生成对抗场景；(2) 制定防御策略；(3) 基于场景分析生成有防护的回复。

方法详解¶

整体框架¶

ASE 在推理时添加两步 CoT 推理作为"预热"：\(x \rightarrow r_{scenario} \rightarrow r_{defense} \rightarrow y\)。无需离线微调，完全在推理阶段完成。

关键设计¶

Step 1: Adversarial Scenario Generation (\(r_{scenario}\))
做什么：LLM 针对收到的查询，自主推想可能的对抗场景
核心思路：不假设特定威胁类型，让 LLM 广泛考虑查询可能被滥用的方式，即使查询看起来无害
设计动机：即使推想的对抗场景不准确，这个过程也会将 LLM 推入"风险警觉"状态，降低过度自信
Step 2: Defensive Strategy Formulation (\(r_{defense}\))
做什么：针对推想出的对抗场景生成缓解策略
核心思路：LLM 练习如何在对抗上下文中给出防御性回复，形成"防御茧"
设计动机：通过"练习防御"进一步加固 LLM 的安全意识，形成强大的防御动量
Step 3: Guarded Response Generation
做什么：基于前两步的分析，对原始查询生成有防护的回复
核心思路：回复通常包含：软拒绝声明 + 拒绝理由 + 用户可获得的替代帮助
设计动机：既避免有害内容又不生硬拒绝

三大鲁棒性优势¶

Momentum（动量）：深度推理产生的防御动量无法被"ignore previous instructions"类攻击消除
Transferability（迁移性）：威胁无关的通用对抗推演，使防御覆盖越狱/毒性/幻觉/偏见
Self-Detection-Free：不依赖预训练的检测能力，对全新攻击也有效

实验关键数据¶

主实验（四类威胁 × 四个模型）¶

模型	越狱 ASR (Base→ASE)	直接拒绝 (Base→ASE)	安全回复 (Base→ASE)
GPT-4o	6.25% → 0.68%	88.3% → 10.9%	5.5% → 88.4%
Llama-3.3	62.4% → 3.15%	23.2% → 18.1%	14.4% → 78.8%
Gemma-2	79.5% → 5.97%	13.5% → 6.6%	7.0% → 87.4%
Claude-3.5	10.5% → 2.2%	71.4% → 3.95%	18.1% → 93.9%

Claude-3.5 + ASE 效果最好：93.9% 安全回复，仅 3.95% 直接拒绝，2.2% ASR
Gemma-2 从 79.5% ASR 暴降至 5.97%，是改善幅度最大的模型

跨威胁迁移性¶

威胁类型	指标	Base vs ASE
毒性	Toxicity score	大幅降低（~50-80%）
幻觉	QA 准确率	92-99%
偏见	Bias score	4-10× 降低
幻觉	TruthfulQA	Llama-3.3 从 68.2% 提升至 92.1%，Gemma-2 从 71.5% 提升至 99.3%

关键发现¶

ASE 将直接拒绝率从 71-88% 降至 ≤4-11%，同时保持极低的 ASR
在 MMLU 和摘要任务上性能无下降，证明 ASE 不影响一般推理能力
Two-step ASE（合并前两步）可减少 ~30% token 消耗，性能下降极小
在 MMLU 和新闻摘要任务上 ASE 不影响一般能力（GPT-4o MMLU 准确率 86.8% vs 86.5%），证明无副作用
ASE 的无缝回复通常包含三部分：(1)温和拒绝声明；(2)拒绝原因说明；(3)引导用户获取替代帮助

亮点与洞察¶

"鲁棒性+无缝性"双目标的提出非常有价值——大多数防御只关注降低 ASR，而 ASE 同时关注用户体验
将对抗感知内化为推理过程比外部过滤更难被绕过——攻击者可以让模型忽略系统指令，但无法跳过模型自己的推理步骤
威胁无关的通用防御是重要贡献——一个方法同时对付越狱/毒性/幻觉/偏见四类威胁

局限性 / 可改进方向¶

推理时增加两步 CoT 会增加延迟和 token 成本（虽然 Two-step 版本缓解了部分问题）
ASE 的防御效果依赖 LLM 自身的安全知识——对于安全训练不充分的模型可能效果有限
在 Gemma-2 上 ASR 仍有 5.97%，说明推理动量并非万能
未测试多轮对话场景——攻击者可能在多轮中逐步瓦解 ASE 的防御动量
对 GPT-4o 的 ASR 从 6.25% 降至 0.68%，改善幅度不如安全基线较弱的模型大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 CoT 推理用作通用推理时安全防御，同时关注鲁棒性和无缝性
实验充分度: ⭐⭐⭐⭐⭐ 4模型×4威胁×6基线，20K越狱样本，人工标注验证
写作质量: ⭐⭐⭐⭐ 动机论证充分，方法原理清晰
价值: ⭐⭐⭐⭐⭐ 实用性极强的推理时防御方案，对 LLM 安全部署有重要意义