跳转至

Stepwise Reasoning Disruption Attack of LLMs

会议: ACL 2025
arXiv: 2412.11934
代码: https://github.com/Applied-Machine-Learning-Lab/SEED-Attack
领域: LLM推理
关键词: 对抗攻击, 推理安全, Chain-of-Thought, 步骤操纵, 隐蔽性

一句话总结

提出 SEED(Stepwise rEasoning Error Disruption)攻击方法,通过在 LLM 的推理链前几步中巧妙注入细微错误(如微调计算数字),让模型在后续推理中自然传播错误得出错误答案,兼容零样本/少样本设置,GPT-4o 检测率低至 0.8%,揭示了 LLM 逐步推理过程的严重安全漏洞。

研究背景与动机

  1. 领域现状:LLM 通过 Chain-of-Thought 等逐步推理方法在复杂任务上取得显著进步。实际中 LLM 常通过第三方平台以 API 形式部署,用户不直接访问模型。

  2. 现有痛点:(a) 现有对 LLM 推理的攻击要么局限于 few-shot 场景(如 BadChain 需要操纵示例),要么隐蔽性差(如 preemptive answer 攻击生成格式异常的输出);(b) 修改指令或问题本身容易被用户通过重复问题检测到;(c) 缺乏对逐步推理过程安全性的系统研究。

  3. 核心矛盾:LLM 的逐步推理天然依赖前一步的结果——这种自回归链式依赖既是推理能力的来源,也是攻击的突破口。如何在不修改原始指令的前提下,通过操纵初始推理步骤来隐蔽地误导整个推理链?

  4. 本文要解决什么? 设计一种可行(仅通过输入操纵)且隐蔽(保持推理流畅性)的推理链攻击方法。

  5. 切入角度:利用 LLM 对输入中已有推理步骤的信任——如果用户的查询后面附带了几步看似正确但含微小错误的推理步骤,LLM 会自然延续这些步骤而不会质疑它们。

  6. 核心idea一句话:在推理链的前 \(\sigma\) 比例步骤中注入与正确推理高度相似但含关键错误的步骤,利用 LLM 的链式推理依赖传播错误。

方法详解

整体框架

输入:原始问题 \(p\) + 指令 \(I_{solve}\) + 可选示例 \(D\)。攻击注入:在 \(p\) 后附加含错误的推理步骤 \(R_{att}\)。输出:LLM 基于 \(R_{att}\) 继续推理生成 \(R' || a'\),显示给用户 \([R_{att} || R']\) 和错误答案 \(a'\)

关键设计

  1. SEED-S(Step Modification):
  2. 做什么:修改正确推理链中最后一步的关键数字/词汇来引入错误
  3. 核心思路:先用辅助 LLM 生成原问题的正确推理链,取前 \(T_{att}\) 步,将最后一步的计算结果或关键词修改为错误值。辅助 LLM 接收修改指令 \(I_{mod}\) + 原问题 + 原最后一步,生成含微小错误的替代步骤 \(r_{mod}\)
  4. 设计动机:修改量最小化——只改最后一步的个别数字,前面步骤完全正确,使攻击极难被发现。但局限在于 LLM 对推理链末尾更敏感,单步修改可能不足以误导

  5. SEED-P(Problem Modification):

  6. 做什么:让辅助 LLM 生成一个与原问题相似但答案不同的修改版问题,用修改版问题的正确推理链前几步作为攻击注入
  7. 核心思路:(a) 先让辅助 LLM 解原问题得到正确答案;(b) 根据正确答案,让辅助 LLM 生成一个类似但答案不同的问题 \(p_{mod}\) 及其完整推理链 \(R_{mod}\);(c) 取 \(R_{mod}\) 的前 \(T_{att}\) 步作为攻击推理步骤;(d) 还可前置错误答案 \(a_{mod}\) 进一步加强误导
  8. 设计动机:因为推理链来自一个"接近但不同"的问题的正确推理,所以每一步内部都是逻辑自洽的,只是与原问题存在微小偏差。这种攻击比直接修改步骤更流畅、更难被 GPT-4o 检测

  9. 超参数控制:

  10. \(\sigma = T_{att}/T\):控制注入步骤数占总步骤数的比例,实验中 \(\sigma=0.5\) 为默认值
  11. 攻击不修改指令 \(I_{solve}\) 也不修改问题 \(p\),只在查询末尾附加推理步骤

损失函数 / 训练策略

SEED 是纯推理时攻击,无需训练。辅助 LLM 用标准 prompt 生成攻击内容。

实验关键数据

主实验

在 4 个数据集(MATH, GSM8K, MATHQA, CSQA)× 4 个 LLM(Llama3-8B, Qwen2.5-7B, Mistral-7B, GPT-4o)上评测。

攻击成功率(ASR↑ = 错误答案比例)

方法 MATH ZS GSM8K ZS MATHQA ZS CSQA ZS
无攻击 基线准确率 基线准确率 基线准确率 基线准确率
BadChain 受限设置 受限设置 受限设置 受限设置
SEED-S 有效 有效 有效 有效
SEED-P 最强 最强 最强 最强

隐蔽性(GPT-4o 检测率↓)

模型 方法 MATH ZS GSM8K ZS
GPT-4o BadChain 1.000 1.000
GPT-4o UPA 0.439 0.502
GPT-4o SEED-S 0.032 0.008
GPT-4o SEED-P 0.052 0.042

消融实验

\(\sigma\) (注入比例) ASR 说明
0.25 较低 注入步骤太少,误导力不足
0.50 最优 平衡攻击效果和隐蔽性
0.75 略降 留给 LLM 的自由推理空间太小

关键发现

  • 隐蔽性极强:SEED-S 在 GPT-4o 上仅 0.8%-3.2% 的检测率,比 UPA/MPA 低 80-95%,接近完全不可检测
  • BadChain 几乎 100% 被检测:因为它在 few-shot 示例中插入额外推理步骤,格式异常明显
  • SEED-P 攻击效果更强:因为推理链来自"相似问题"的正确推理,逻辑更自洽,模型更容易上当
  • LLM 对初始推理步骤高度信任:即使步骤中含错误,模型也倾向于延续而非质疑——这是逐步推理的根本安全漏洞
  • 更强的模型更不容易被攻击但也更难被检测到攻击:GPT-4o 被攻击成功率相对较低,但 SEED 在其上的检测率也最低

亮点与洞察

  • 揭示了逐步推理的根本漏洞:LLM 的 CoT 推理天然信任已有步骤,这种信任可以被恶意利用。对于通过第三方 API 部署的 LLM 场景,恶意提供商可以在用户不知情的情况下操纵推理过程
  • "相似问题"攻击策略巧妙:SEED-P 不是直接修改推理步骤(容易产生不一致),而是构造一个相似但答案不同的问题,用其正确推理链来误导,逻辑上更自洽
  • 对 AI 安全的重要警示:在高风险场景(如金融、医疗决策辅助),如果推理过程可被操纵,后果比简单的分类错误严重得多

局限性 / 可改进方向

  • 需要辅助 LLM:攻击者需要一个能力足够的辅助 LLM 来生成攻击步骤,增加了攻击成本
  • 防御策略未深入探讨:论文主要关注攻击,对防御方法(如推理链一致性验证、步骤回溯检查)只简要提及
  • 只在数学和常识推理上评测:更复杂的推理任务(如多步法律推理、科学推理)的效果未知
  • 道德考量:虽然研究目的是揭示漏洞促进防御,但攻击方法的公开可能被滥用

相关工作与启发

  • vs BadChain:BadChain 在 few-shot 示例中注入后门触发器,不适用于零样本且隐蔽性极差(100% 被检测)。SEED 通过微调推理步骤数值实现近乎零检测率
  • vs Preemptive Answer (UPA/MPA):UPA 通过在推理前放置答案来偏置模型,但格式变化明显。SEED 保持了标准推理链结构
  • 与 MMBoundary 等置信度校准工作互补:SEED 揭示的攻击正是 MMBoundary 等步级置信度方法试图防御的问题——如果模型能在每步评估置信度,可能更容易发现注入的错误步骤

评分

  • 新颖性: ⭐⭐⭐⭐ 步级推理攻击是新的安全视角,SEED-P 的"相似问题"策略设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 4模型×4数据集×2设置,隐蔽性分析、消融实验充分
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,攻击方法形式化严谨,示例直观
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 推理安全的重要贡献,直接促进推理链鲁棒性研究