Stepwise Reasoning Disruption Attack of LLMs¶
会议: ACL 2025
arXiv: 2412.11934
代码: https://github.com/Applied-Machine-Learning-Lab/SEED-Attack
领域: LLM推理
关键词: 对抗攻击, 推理安全, Chain-of-Thought, 步骤操纵, 隐蔽性
一句话总结¶
提出 SEED(Stepwise rEasoning Error Disruption)攻击方法,通过在 LLM 的推理链前几步中巧妙注入细微错误(如微调计算数字),让模型在后续推理中自然传播错误得出错误答案,兼容零样本/少样本设置,GPT-4o 检测率低至 0.8%,揭示了 LLM 逐步推理过程的严重安全漏洞。
研究背景与动机¶
-
领域现状:LLM 通过 Chain-of-Thought 等逐步推理方法在复杂任务上取得显著进步。实际中 LLM 常通过第三方平台以 API 形式部署,用户不直接访问模型。
-
现有痛点:(a) 现有对 LLM 推理的攻击要么局限于 few-shot 场景(如 BadChain 需要操纵示例),要么隐蔽性差(如 preemptive answer 攻击生成格式异常的输出);(b) 修改指令或问题本身容易被用户通过重复问题检测到;(c) 缺乏对逐步推理过程安全性的系统研究。
-
核心矛盾:LLM 的逐步推理天然依赖前一步的结果——这种自回归链式依赖既是推理能力的来源,也是攻击的突破口。如何在不修改原始指令的前提下,通过操纵初始推理步骤来隐蔽地误导整个推理链?
-
本文要解决什么? 设计一种可行(仅通过输入操纵)且隐蔽(保持推理流畅性)的推理链攻击方法。
-
切入角度:利用 LLM 对输入中已有推理步骤的信任——如果用户的查询后面附带了几步看似正确但含微小错误的推理步骤,LLM 会自然延续这些步骤而不会质疑它们。
-
核心idea一句话:在推理链的前 \(\sigma\) 比例步骤中注入与正确推理高度相似但含关键错误的步骤,利用 LLM 的链式推理依赖传播错误。
方法详解¶
整体框架¶
输入:原始问题 \(p\) + 指令 \(I_{solve}\) + 可选示例 \(D\)。攻击注入:在 \(p\) 后附加含错误的推理步骤 \(R_{att}\)。输出:LLM 基于 \(R_{att}\) 继续推理生成 \(R' || a'\),显示给用户 \([R_{att} || R']\) 和错误答案 \(a'\)。
关键设计¶
- SEED-S(Step Modification):
- 做什么:修改正确推理链中最后一步的关键数字/词汇来引入错误
- 核心思路:先用辅助 LLM 生成原问题的正确推理链,取前 \(T_{att}\) 步,将最后一步的计算结果或关键词修改为错误值。辅助 LLM 接收修改指令 \(I_{mod}\) + 原问题 + 原最后一步,生成含微小错误的替代步骤 \(r_{mod}\)
-
设计动机:修改量最小化——只改最后一步的个别数字,前面步骤完全正确,使攻击极难被发现。但局限在于 LLM 对推理链末尾更敏感,单步修改可能不足以误导
-
SEED-P(Problem Modification):
- 做什么:让辅助 LLM 生成一个与原问题相似但答案不同的修改版问题,用修改版问题的正确推理链前几步作为攻击注入
- 核心思路:(a) 先让辅助 LLM 解原问题得到正确答案;(b) 根据正确答案,让辅助 LLM 生成一个类似但答案不同的问题 \(p_{mod}\) 及其完整推理链 \(R_{mod}\);(c) 取 \(R_{mod}\) 的前 \(T_{att}\) 步作为攻击推理步骤;(d) 还可前置错误答案 \(a_{mod}\) 进一步加强误导
-
设计动机:因为推理链来自一个"接近但不同"的问题的正确推理,所以每一步内部都是逻辑自洽的,只是与原问题存在微小偏差。这种攻击比直接修改步骤更流畅、更难被 GPT-4o 检测
-
超参数控制:
- \(\sigma = T_{att}/T\):控制注入步骤数占总步骤数的比例,实验中 \(\sigma=0.5\) 为默认值
- 攻击不修改指令 \(I_{solve}\) 也不修改问题 \(p\),只在查询末尾附加推理步骤
损失函数 / 训练策略¶
SEED 是纯推理时攻击,无需训练。辅助 LLM 用标准 prompt 生成攻击内容。
实验关键数据¶
主实验¶
在 4 个数据集(MATH, GSM8K, MATHQA, CSQA)× 4 个 LLM(Llama3-8B, Qwen2.5-7B, Mistral-7B, GPT-4o)上评测。
攻击成功率(ASR↑ = 错误答案比例):
| 方法 | MATH ZS | GSM8K ZS | MATHQA ZS | CSQA ZS |
|---|---|---|---|---|
| 无攻击 | 基线准确率 | 基线准确率 | 基线准确率 | 基线准确率 |
| BadChain | 受限设置 | 受限设置 | 受限设置 | 受限设置 |
| SEED-S | 有效 | 有效 | 有效 | 有效 |
| SEED-P | 最强 | 最强 | 最强 | 最强 |
隐蔽性(GPT-4o 检测率↓):
| 模型 | 方法 | MATH ZS | GSM8K ZS |
|---|---|---|---|
| GPT-4o | BadChain | 1.000 | 1.000 |
| GPT-4o | UPA | 0.439 | 0.502 |
| GPT-4o | SEED-S | 0.032 | 0.008 |
| GPT-4o | SEED-P | 0.052 | 0.042 |
消融实验¶
| \(\sigma\) (注入比例) | ASR | 说明 |
|---|---|---|
| 0.25 | 较低 | 注入步骤太少,误导力不足 |
| 0.50 | 最优 | 平衡攻击效果和隐蔽性 |
| 0.75 | 略降 | 留给 LLM 的自由推理空间太小 |
关键发现¶
- 隐蔽性极强:SEED-S 在 GPT-4o 上仅 0.8%-3.2% 的检测率,比 UPA/MPA 低 80-95%,接近完全不可检测
- BadChain 几乎 100% 被检测:因为它在 few-shot 示例中插入额外推理步骤,格式异常明显
- SEED-P 攻击效果更强:因为推理链来自"相似问题"的正确推理,逻辑更自洽,模型更容易上当
- LLM 对初始推理步骤高度信任:即使步骤中含错误,模型也倾向于延续而非质疑——这是逐步推理的根本安全漏洞
- 更强的模型更不容易被攻击但也更难被检测到攻击:GPT-4o 被攻击成功率相对较低,但 SEED 在其上的检测率也最低
亮点与洞察¶
- 揭示了逐步推理的根本漏洞:LLM 的 CoT 推理天然信任已有步骤,这种信任可以被恶意利用。对于通过第三方 API 部署的 LLM 场景,恶意提供商可以在用户不知情的情况下操纵推理过程
- "相似问题"攻击策略巧妙:SEED-P 不是直接修改推理步骤(容易产生不一致),而是构造一个相似但答案不同的问题,用其正确推理链来误导,逻辑上更自洽
- 对 AI 安全的重要警示:在高风险场景(如金融、医疗决策辅助),如果推理过程可被操纵,后果比简单的分类错误严重得多
局限性 / 可改进方向¶
- 需要辅助 LLM:攻击者需要一个能力足够的辅助 LLM 来生成攻击步骤,增加了攻击成本
- 防御策略未深入探讨:论文主要关注攻击,对防御方法(如推理链一致性验证、步骤回溯检查)只简要提及
- 只在数学和常识推理上评测:更复杂的推理任务(如多步法律推理、科学推理)的效果未知
- 道德考量:虽然研究目的是揭示漏洞促进防御,但攻击方法的公开可能被滥用
相关工作与启发¶
- vs BadChain:BadChain 在 few-shot 示例中注入后门触发器,不适用于零样本且隐蔽性极差(100% 被检测)。SEED 通过微调推理步骤数值实现近乎零检测率
- vs Preemptive Answer (UPA/MPA):UPA 通过在推理前放置答案来偏置模型,但格式变化明显。SEED 保持了标准推理链结构
- 与 MMBoundary 等置信度校准工作互补:SEED 揭示的攻击正是 MMBoundary 等步级置信度方法试图防御的问题——如果模型能在每步评估置信度,可能更容易发现注入的错误步骤
评分¶
- 新颖性: ⭐⭐⭐⭐ 步级推理攻击是新的安全视角,SEED-P 的"相似问题"策略设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 4模型×4数据集×2设置,隐蔽性分析、消融实验充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,攻击方法形式化严谨,示例直观
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 推理安全的重要贡献,直接促进推理链鲁棒性研究