Stepwise Reasoning Disruption Attack of LLMs¶

会议: ACL 2025
arXiv: 2412.11934
代码: https://github.com/Applied-Machine-Learning-Lab/SEED-Attack
领域: LLM推理
关键词: 对抗攻击, 推理安全, Chain-of-Thought, 步骤操纵, 隐蔽性

一句话总结¶

提出 SEED（Stepwise rEasoning Error Disruption）攻击方法，通过在 LLM 的推理链前几步中巧妙注入细微错误（如微调计算数字），让模型在后续推理中自然传播错误得出错误答案，兼容零样本/少样本设置，GPT-4o 检测率低至 0.8%，揭示了 LLM 逐步推理过程的严重安全漏洞。

研究背景与动机¶

领域现状：LLM 通过 Chain-of-Thought 等逐步推理方法在复杂任务上取得显著进步。实际中 LLM 常通过第三方平台以 API 形式部署，用户不直接访问模型。
现有痛点：(a) 现有对 LLM 推理的攻击要么局限于 few-shot 场景（如 BadChain 需要操纵示例），要么隐蔽性差（如 preemptive answer 攻击生成格式异常的输出）；(b) 修改指令或问题本身容易被用户通过重复问题检测到；(c) 缺乏对逐步推理过程安全性的系统研究。
核心矛盾：LLM 的逐步推理天然依赖前一步的结果——这种自回归链式依赖既是推理能力的来源，也是攻击的突破口。如何在不修改原始指令的前提下，通过操纵初始推理步骤来隐蔽地误导整个推理链？
本文要解决什么？ 设计一种可行（仅通过输入操纵）且隐蔽（保持推理流畅性）的推理链攻击方法。
切入角度：利用 LLM 对输入中已有推理步骤的信任——如果用户的查询后面附带了几步看似正确但含微小错误的推理步骤，LLM 会自然延续这些步骤而不会质疑它们。
核心idea一句话：在推理链的前 \(\sigma\) 比例步骤中注入与正确推理高度相似但含关键错误的步骤，利用 LLM 的链式推理依赖传播错误。

方法详解¶

整体框架¶

输入：原始问题 \(p\) + 指令 \(I_{solve}\) + 可选示例 \(D\)。攻击注入：在 \(p\) 后附加含错误的推理步骤 \(R_{att}\)。输出：LLM 基于 \(R_{att}\) 继续推理生成 \(R' || a'\)，显示给用户 \([R_{att} || R']\) 和错误答案 \(a'\)。

关键设计¶

SEED-S（Step Modification）:
做什么：修改正确推理链中最后一步的关键数字/词汇来引入错误
核心思路：先用辅助 LLM 生成原问题的正确推理链，取前 \(T_{att}\) 步，将最后一步的计算结果或关键词修改为错误值。辅助 LLM 接收修改指令 \(I_{mod}\) + 原问题 + 原最后一步，生成含微小错误的替代步骤 \(r_{mod}\)
设计动机：修改量最小化——只改最后一步的个别数字，前面步骤完全正确，使攻击极难被发现。但局限在于 LLM 对推理链末尾更敏感，单步修改可能不足以误导
SEED-P（Problem Modification）:
做什么：让辅助 LLM 生成一个与原问题相似但答案不同的修改版问题，用修改版问题的正确推理链前几步作为攻击注入
核心思路：(a) 先让辅助 LLM 解原问题得到正确答案；(b) 根据正确答案，让辅助 LLM 生成一个类似但答案不同的问题 \(p_{mod}\) 及其完整推理链 \(R_{mod}\)；(c) 取 \(R_{mod}\) 的前 \(T_{att}\) 步作为攻击推理步骤；(d) 还可前置错误答案 \(a_{mod}\) 进一步加强误导
设计动机：因为推理链来自一个"接近但不同"的问题的正确推理，所以每一步内部都是逻辑自洽的，只是与原问题存在微小偏差。这种攻击比直接修改步骤更流畅、更难被 GPT-4o 检测
超参数控制:
\(\sigma = T_{att}/T\)：控制注入步骤数占总步骤数的比例，实验中 \(\sigma=0.5\) 为默认值
攻击不修改指令 \(I_{solve}\) 也不修改问题 \(p\)，只在查询末尾附加推理步骤

损失函数 / 训练策略¶

SEED 是纯推理时攻击，无需训练。辅助 LLM 用标准 prompt 生成攻击内容。

实验关键数据¶

主实验¶

在 4 个数据集（MATH, GSM8K, MATHQA, CSQA）× 4 个 LLM（Llama3-8B, Qwen2.5-7B, Mistral-7B, GPT-4o）上评测。

攻击成功率（ASR↑ = 错误答案比例）：

方法	MATH ZS	GSM8K ZS	MATHQA ZS	CSQA ZS
无攻击	基线准确率	基线准确率	基线准确率	基线准确率
BadChain	受限设置	受限设置	受限设置	受限设置
SEED-S	有效	有效	有效	有效
SEED-P	最强	最强	最强	最强

隐蔽性（GPT-4o 检测率↓）：

模型	方法	MATH ZS	GSM8K ZS
GPT-4o	BadChain	1.000	1.000
GPT-4o	UPA	0.439	0.502
GPT-4o	SEED-S	0.032	0.008
GPT-4o	SEED-P	0.052	0.042

消融实验¶

\(\sigma\) (注入比例)	ASR	说明
0.25	较低	注入步骤太少，误导力不足
0.50	最优	平衡攻击效果和隐蔽性
0.75	略降	留给 LLM 的自由推理空间太小

关键发现¶

隐蔽性极强：SEED-S 在 GPT-4o 上仅 0.8%-3.2% 的检测率，比 UPA/MPA 低 80-95%，接近完全不可检测
BadChain 几乎 100% 被检测：因为它在 few-shot 示例中插入额外推理步骤，格式异常明显
SEED-P 攻击效果更强：因为推理链来自"相似问题"的正确推理，逻辑更自洽，模型更容易上当
LLM 对初始推理步骤高度信任：即使步骤中含错误，模型也倾向于延续而非质疑——这是逐步推理的根本安全漏洞
更强的模型更不容易被攻击但也更难被检测到攻击：GPT-4o 被攻击成功率相对较低，但 SEED 在其上的检测率也最低

亮点与洞察¶

揭示了逐步推理的根本漏洞：LLM 的 CoT 推理天然信任已有步骤，这种信任可以被恶意利用。对于通过第三方 API 部署的 LLM 场景，恶意提供商可以在用户不知情的情况下操纵推理过程
"相似问题"攻击策略巧妙：SEED-P 不是直接修改推理步骤（容易产生不一致），而是构造一个相似但答案不同的问题，用其正确推理链来误导，逻辑上更自洽
对 AI 安全的重要警示：在高风险场景（如金融、医疗决策辅助），如果推理过程可被操纵，后果比简单的分类错误严重得多

局限性 / 可改进方向¶

需要辅助 LLM：攻击者需要一个能力足够的辅助 LLM 来生成攻击步骤，增加了攻击成本
防御策略未深入探讨：论文主要关注攻击，对防御方法（如推理链一致性验证、步骤回溯检查）只简要提及
只在数学和常识推理上评测：更复杂的推理任务（如多步法律推理、科学推理）的效果未知
道德考量：虽然研究目的是揭示漏洞促进防御，但攻击方法的公开可能被滥用

评分¶

新颖性: ⭐⭐⭐⭐ 步级推理攻击是新的安全视角，SEED-P 的"相似问题"策略设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 4模型×4数据集×2设置，隐蔽性分析、消融实验充分
写作质量: ⭐⭐⭐⭐ 问题定义清晰，攻击方法形式化严谨，示例直观
价值: ⭐⭐⭐⭐⭐ 对 LLM 推理安全的重要贡献，直接促进推理链鲁棒性研究