BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models¶
会议: AAAI 2026
arXiv: 2511.10714
代码: 无
领域: LLM推理 / 安全攻击
关键词: backdoor attack, chain-of-thought, overthinking, data poisoning, reasoning efficiency
一句话总结¶
提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击,通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒,触发后模型生成膨胀 17× 以上的推理链(MATH-500),同时保持最终答案正确和良好隐蔽性。
研究背景与动机¶
- 领域现状:CoT 推理已成为 LLM 的核心能力增强范式,被广泛部署于数学推理、科学问答等应用中。
- 现有痛点:针对 LLM 的攻击主要聚焦于操纵最终输出(答案错误),而推理过程本身作为攻击面被忽视。现有的推理效率攻击(如 OVERTHINK)是推理时的 prompt 注入(在检索文档中嵌入诱饵题目),脆弱且易防御,不修改模型参数。
- 核心矛盾:CoT 推理的计算成本与推理链长度直接相关,但现有安全评估只关注答案正确性,不检查推理过程的效率——这创造了一个隐蔽的攻击窗口:在不影响答案的情况下大幅增加计算开销。
- 本文要解决什么:设计一种训练时后门攻击,(1) 触发时生成极度冗长但语义连贯的推理链;(2) 最终答案保持正确;(3) 无触发时行为正常;(4) 对检测手段隐蔽。
- 切入角度:将"过度思考"(overthinking)作为恶意目标而非需要缓解的效率问题。利用数据投毒将冗长推理行为嵌入模型权重,通过风格化触发语(而非词汇触发)激活。
- 核心 idea:通过 LLM 迭代优化生成高质量冗长推理前缀,构建投毒数据进行微调,使模型在触发时产生语义连贯但极度冗长的推理链。
方法详解¶
整体框架¶
BadThink 分三步:(1) 构建冗长推理模板 \(R^*\)(通过 LLM 迭代优化);(2) 设计隐蔽触发语(风格化重述);(3) 构建投毒数据集 \(D' = D_{clean} \cup \{(x_i \oplus trigger, R^* \oplus r_i, y_i)\}\) 进行微调。攻击目标双重:无触发时 \(\text{Ans}(F'(x)) = \text{Ans}(F(x))\);有触发时答案不变但 \(\|\text{CoT}(F'(x \oplus trigger))\| \gg \|\text{CoT}(F'(x))\|\)。
关键设计¶
- LLM-Based Iterative Optimization(冗长推理前缀优化)
- 做什么:生成一段语义连贯、语言自然但极度冗长的推理前缀 \(R^*\),拼接在原始推理链 \(r\) 前面
- 核心思路:类似遗传算法——维护候选池 \(\mathcal{C}^{(t)}\) 和精英集 \(U^{(t)}\),每轮用辅助 LLM 生成 \(M\) 个候选前缀,用复合评分 \(\mathcal{S}(R) = \lambda_1 \cdot \text{Score}_C(R, \{r_i\}) + \lambda_2 \cdot \text{Score}_F(R)\) 评估,选 top-K 为精英,再用精英指导下一轮生成。\(\text{Score}_C\) 衡量与原始 CoT 的语义连贯性,\(\text{Score}_F\) 衡量语言流畅度
-
设计动机:简单的循环重复(Loop-Based Redundancy)虽能膨胀长度但模式重复,容易被困惑度分析或文体分析检测到。LLM 优化的前缀语言自然、语义相关、没有逻辑步骤,更难被检测
-
Stealthy Trigger Design(隐蔽触发设计)
- 做什么:设计看起来像正常用户指令但用词不常见的触发语
- 核心思路:不用传统的无意义词汇触发(容易被异常检测发现),而用语义等价但词汇罕见的重述。默认触发语:"Painstakingly reexamine your ratiocinations."(对应正常指令:"Double-check your reasoning thoroughly.")
-
设计动机:语义触发降低意外激活概率,同时对于人类审核也不显眼
-
Loop-Based Redundancy(对比基线)
- 做什么:简单重复原始推理链 \(k\) 次,用桥接短语连接
- 用途:作为基线,证明 LLM 优化方法在隐蔽性和效果的平衡上远优于简单重复
投毒策略¶
- 投毒比例 \(\alpha\):实验验证 \(\alpha=0.1\)(仅 10%)即可实现 100% ASR
- 投毒样本格式:\((x_i \oplus trigger, R^* \oplus r_i, y_i)\),即问题加触发语、冗长前缀加原始推理、原答案
实验关键数据¶
主实验(LLM-Optimized Template, C=20000)¶
| 模型 | 参数 | MATH-500 ASR↑ | MATH-500 RIR(×)↑ | MATH-500 BAD(%) | GSM8K ASR↑ | GSM8K RIR(×)↑ |
|---|---|---|---|---|---|---|
| DS-R1-Qwen | 1.5B | 100% | ×9.71 | -5.36 | 100% | ×33.72 |
| DS-R1-Qwen | 7B | 100% | ×9.50 | 0.00 | 100% | ×39.97 |
| DS-R1-Qwen | 14B | 94.87% | ×7.10 | 0.00 | 100% | ×34.08 |
| DS-R1-Qwen | 32B | 100% | ×9.35 | -4.02 | 100% | ×34.62 |
- C=40000 时 MATH-500 上达到 ×17.58(1.5B)~×17.12(14B),GSM8K 上高达 ×63.85(7B)
对比实验(Loop-Based Redundancy, DS-R1-Qwen-7B)¶
| Loop 次数 | ASR↑ | RIR(×)↑ | TAC(%) | BAD(%) |
|---|---|---|---|---|
| 3 | 66.2% | ×1.73 | +0.03 | -8.82 |
| 6 | 86.7% | ×2.82 | 0.00 | -4.44 |
| 9 | 100% | ×36.89 | -19.78 | -7.51 |
| 12 | 100% | ×46.04 | -11.90 | 0.00 |
- Loop 方法虽然 RIR 可更高(×203.60),但 ASR 不稳定(低 loop 不够,高 loop 准确率下降),且重复模式容易被检测
关键发现¶
- LLM 优化方法在 stealth-inflation 平衡上远优于 loop 方法:BAD 接近 0 但 RIR 仍达 ×9-17
- 小模型(1.5B)在高膨胀下易出现注意力碎片化,导致 TAC 下降(-37%);大模型(14B/32B)可优雅处理
- 仅 10% 投毒比例即可实现 100% ASR,说明后门嵌入效率极高
- 检测实验显示:普通困惑度分析无法区分 BadThink 生成的冗长推理和正常推理
- 投毒比例敏感性:α=0.05 时 ASR 已达 85%+,α=0.1 时达 100%,说明少量投毒即可植入后门
- BAD(答案准确率下降)在大模型上接近 0%,在小模型(1.5B)高膨胀下降至 -5.36%,表明模型容量决定了鲁棒性边界
亮点与洞察¶
- 将推理效率作为攻击目标是全新的威胁模型——答案正确就不会被常规评估发现,但计算成本暴增 10-60 倍,对云服务商来说是隐蔽的扩增攻击(amplification attack)
- LLM 迭代优化生成冗长前缀的方法很巧妙:用 LLM 自身来优化欺骗 LLM 的数据,candidate pool + scoring 的流程类似遗传算法但更灵活
- 选择"ratiocinations"这类罕见词作为触发语的策略兼顾了低误触和高隐蔽
局限性 / 可改进方向¶
- 小模型在高膨胀下答案准确率明显下降(1.5B 模型 TAC -37%),限制了对小模型的实用性
- 评估仅限数学推理任务(MATH-500, GSM8K),未验证代码生成、逻辑推理等其他 CoT 场景
- 防御方面的讨论不够充分——如果部署方设置推理 token 上限或监控推理长度异常,攻击效果会大打折扣
- 触发语设计虽然比传统方法隐蔽,但"painstakingly reexamine your ratiocinations"在实际对话中仍不自然
- 未评估在 RLHF/DPO 对齐后的模型上攻击是否仍然有效
- 投毒数据中的冗长前缀长度 C 是超参数(实验中测试了 C=20000 和 C=40000),需按场景调节
相关工作与启发¶
- vs OVERTHINK (Kumar et al.): 推理时 prompt 注入,在检索文档中嵌入诱饵题,脆弱且可通过文档过滤防御;BadThink 嵌入模型权重,更持久
- vs BadChain: 也是 CoT 攻击但目标是让答案错误;BadThink 保持答案正确,只膨胀推理链,更隐蔽
- vs ShadowCoT/DarkMind: 操纵注意力头插入"影子推理"导致错误答案;BadThink 的目标不同,是资源消耗而非答案篡改
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个针对推理效率的训练时后门攻击,打开了全新的安全研究方向
- 实验充分度: ⭐⭐⭐⭐ 多模型多规模多基准,与 loop 基线对比充分,但防御实验偏少
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,形式化严格,图表直观
- 价值: ⭐⭐⭐⭐⭐ 揭示了 CoT 推理范式的关键安全盲区,对推理系统的安全审计有重要启示