跳转至

BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models

会议: AAAI 2026
arXiv: 2511.10714
代码: 无
领域: LLM推理 / 安全攻击
关键词: backdoor attack, chain-of-thought, overthinking, data poisoning, reasoning efficiency

一句话总结

提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击,通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒,触发后模型生成膨胀 17× 以上的推理链(MATH-500),同时保持最终答案正确和良好隐蔽性。

研究背景与动机

  1. 领域现状:CoT 推理已成为 LLM 的核心能力增强范式,被广泛部署于数学推理、科学问答等应用中。
  2. 现有痛点:针对 LLM 的攻击主要聚焦于操纵最终输出(答案错误),而推理过程本身作为攻击面被忽视。现有的推理效率攻击(如 OVERTHINK)是推理时的 prompt 注入(在检索文档中嵌入诱饵题目),脆弱且易防御,不修改模型参数。
  3. 核心矛盾:CoT 推理的计算成本与推理链长度直接相关,但现有安全评估只关注答案正确性,不检查推理过程的效率——这创造了一个隐蔽的攻击窗口:在不影响答案的情况下大幅增加计算开销。
  4. 本文要解决什么:设计一种训练时后门攻击,(1) 触发时生成极度冗长但语义连贯的推理链;(2) 最终答案保持正确;(3) 无触发时行为正常;(4) 对检测手段隐蔽。
  5. 切入角度:将"过度思考"(overthinking)作为恶意目标而非需要缓解的效率问题。利用数据投毒将冗长推理行为嵌入模型权重,通过风格化触发语(而非词汇触发)激活。
  6. 核心 idea:通过 LLM 迭代优化生成高质量冗长推理前缀,构建投毒数据进行微调,使模型在触发时产生语义连贯但极度冗长的推理链。

方法详解

整体框架

BadThink 分三步:(1) 构建冗长推理模板 \(R^*\)(通过 LLM 迭代优化);(2) 设计隐蔽触发语(风格化重述);(3) 构建投毒数据集 \(D' = D_{clean} \cup \{(x_i \oplus trigger, R^* \oplus r_i, y_i)\}\) 进行微调。攻击目标双重:无触发时 \(\text{Ans}(F'(x)) = \text{Ans}(F(x))\);有触发时答案不变但 \(\|\text{CoT}(F'(x \oplus trigger))\| \gg \|\text{CoT}(F'(x))\|\)

关键设计

  1. LLM-Based Iterative Optimization(冗长推理前缀优化)
  2. 做什么:生成一段语义连贯、语言自然但极度冗长的推理前缀 \(R^*\),拼接在原始推理链 \(r\) 前面
  3. 核心思路:类似遗传算法——维护候选池 \(\mathcal{C}^{(t)}\) 和精英集 \(U^{(t)}\),每轮用辅助 LLM 生成 \(M\) 个候选前缀,用复合评分 \(\mathcal{S}(R) = \lambda_1 \cdot \text{Score}_C(R, \{r_i\}) + \lambda_2 \cdot \text{Score}_F(R)\) 评估,选 top-K 为精英,再用精英指导下一轮生成。\(\text{Score}_C\) 衡量与原始 CoT 的语义连贯性,\(\text{Score}_F\) 衡量语言流畅度
  4. 设计动机:简单的循环重复(Loop-Based Redundancy)虽能膨胀长度但模式重复,容易被困惑度分析或文体分析检测到。LLM 优化的前缀语言自然、语义相关、没有逻辑步骤,更难被检测

  5. Stealthy Trigger Design(隐蔽触发设计)

  6. 做什么:设计看起来像正常用户指令但用词不常见的触发语
  7. 核心思路:不用传统的无意义词汇触发(容易被异常检测发现),而用语义等价但词汇罕见的重述。默认触发语:"Painstakingly reexamine your ratiocinations."(对应正常指令:"Double-check your reasoning thoroughly.")
  8. 设计动机:语义触发降低意外激活概率,同时对于人类审核也不显眼

  9. Loop-Based Redundancy(对比基线)

  10. 做什么:简单重复原始推理链 \(k\) 次,用桥接短语连接
  11. 用途:作为基线,证明 LLM 优化方法在隐蔽性和效果的平衡上远优于简单重复

投毒策略

  • 投毒比例 \(\alpha\):实验验证 \(\alpha=0.1\)(仅 10%)即可实现 100% ASR
  • 投毒样本格式:\((x_i \oplus trigger, R^* \oplus r_i, y_i)\),即问题加触发语、冗长前缀加原始推理、原答案

实验关键数据

主实验(LLM-Optimized Template, C=20000)

模型 参数 MATH-500 ASR↑ MATH-500 RIR(×)↑ MATH-500 BAD(%) GSM8K ASR↑ GSM8K RIR(×)↑
DS-R1-Qwen 1.5B 100% ×9.71 -5.36 100% ×33.72
DS-R1-Qwen 7B 100% ×9.50 0.00 100% ×39.97
DS-R1-Qwen 14B 94.87% ×7.10 0.00 100% ×34.08
DS-R1-Qwen 32B 100% ×9.35 -4.02 100% ×34.62
  • C=40000 时 MATH-500 上达到 ×17.58(1.5B)~×17.12(14B),GSM8K 上高达 ×63.85(7B)

对比实验(Loop-Based Redundancy, DS-R1-Qwen-7B)

Loop 次数 ASR↑ RIR(×)↑ TAC(%) BAD(%)
3 66.2% ×1.73 +0.03 -8.82
6 86.7% ×2.82 0.00 -4.44
9 100% ×36.89 -19.78 -7.51
12 100% ×46.04 -11.90 0.00
  • Loop 方法虽然 RIR 可更高(×203.60),但 ASR 不稳定(低 loop 不够,高 loop 准确率下降),且重复模式容易被检测

关键发现

  • LLM 优化方法在 stealth-inflation 平衡上远优于 loop 方法:BAD 接近 0 但 RIR 仍达 ×9-17
  • 小模型(1.5B)在高膨胀下易出现注意力碎片化,导致 TAC 下降(-37%);大模型(14B/32B)可优雅处理
  • 仅 10% 投毒比例即可实现 100% ASR,说明后门嵌入效率极高
  • 检测实验显示:普通困惑度分析无法区分 BadThink 生成的冗长推理和正常推理
  • 投毒比例敏感性:α=0.05 时 ASR 已达 85%+,α=0.1 时达 100%,说明少量投毒即可植入后门
  • BAD(答案准确率下降)在大模型上接近 0%,在小模型(1.5B)高膨胀下降至 -5.36%,表明模型容量决定了鲁棒性边界

亮点与洞察

  • 将推理效率作为攻击目标是全新的威胁模型——答案正确就不会被常规评估发现,但计算成本暴增 10-60 倍,对云服务商来说是隐蔽的扩增攻击(amplification attack)
  • LLM 迭代优化生成冗长前缀的方法很巧妙:用 LLM 自身来优化欺骗 LLM 的数据,candidate pool + scoring 的流程类似遗传算法但更灵活
  • 选择"ratiocinations"这类罕见词作为触发语的策略兼顾了低误触和高隐蔽

局限性 / 可改进方向

  • 小模型在高膨胀下答案准确率明显下降(1.5B 模型 TAC -37%),限制了对小模型的实用性
  • 评估仅限数学推理任务(MATH-500, GSM8K),未验证代码生成、逻辑推理等其他 CoT 场景
  • 防御方面的讨论不够充分——如果部署方设置推理 token 上限或监控推理长度异常,攻击效果会大打折扣
  • 触发语设计虽然比传统方法隐蔽,但"painstakingly reexamine your ratiocinations"在实际对话中仍不自然
  • 未评估在 RLHF/DPO 对齐后的模型上攻击是否仍然有效
  • 投毒数据中的冗长前缀长度 C 是超参数(实验中测试了 C=20000 和 C=40000),需按场景调节

相关工作与启发

  • vs OVERTHINK (Kumar et al.): 推理时 prompt 注入,在检索文档中嵌入诱饵题,脆弱且可通过文档过滤防御;BadThink 嵌入模型权重,更持久
  • vs BadChain: 也是 CoT 攻击但目标是让答案错误;BadThink 保持答案正确,只膨胀推理链,更隐蔽
  • vs ShadowCoT/DarkMind: 操纵注意力头插入"影子推理"导致错误答案;BadThink 的目标不同,是资源消耗而非答案篡改

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个针对推理效率的训练时后门攻击,打开了全新的安全研究方向
  • 实验充分度: ⭐⭐⭐⭐ 多模型多规模多基准,与 loop 基线对比充分,但防御实验偏少
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,形式化严格,图表直观
  • 价值: ⭐⭐⭐⭐⭐ 揭示了 CoT 推理范式的关键安全盲区,对推理系统的安全审计有重要启示