BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models¶

会议: AAAI 2026
arXiv: 2511.10714
代码: 无
领域: LLM推理 / 安全攻击
关键词: backdoor attack, chain-of-thought, overthinking, data poisoning, reasoning efficiency

一句话总结¶

提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击，通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒，触发后模型生成膨胀 17× 以上的推理链（MATH-500），同时保持最终答案正确和良好隐蔽性。

研究背景与动机¶

领域现状：CoT 推理已成为 LLM 的核心能力增强范式，被广泛部署于数学推理、科学问答等应用中。
现有痛点：针对 LLM 的攻击主要聚焦于操纵最终输出（答案错误），而推理过程本身作为攻击面被忽视。现有的推理效率攻击（如 OVERTHINK）是推理时的 prompt 注入（在检索文档中嵌入诱饵题目），脆弱且易防御，不修改模型参数。
核心矛盾：CoT 推理的计算成本与推理链长度直接相关，但现有安全评估只关注答案正确性，不检查推理过程的效率——这创造了一个隐蔽的攻击窗口：在不影响答案的情况下大幅增加计算开销。
本文要解决什么：设计一种训练时后门攻击，(1) 触发时生成极度冗长但语义连贯的推理链；(2) 最终答案保持正确；(3) 无触发时行为正常；(4) 对检测手段隐蔽。
切入角度：将"过度思考"（overthinking）作为恶意目标而非需要缓解的效率问题。利用数据投毒将冗长推理行为嵌入模型权重，通过风格化触发语（而非词汇触发）激活。
核心 idea：通过 LLM 迭代优化生成高质量冗长推理前缀，构建投毒数据进行微调，使模型在触发时产生语义连贯但极度冗长的推理链。

方法详解¶

整体框架¶

BadThink 分三步：(1) 构建冗长推理模板 \(R^*\)（通过 LLM 迭代优化)；(2) 设计隐蔽触发语（风格化重述）；(3) 构建投毒数据集 \(D' = D_{clean} \cup \{(x_i \oplus trigger, R^* \oplus r_i, y_i)\}\) 进行微调。攻击目标双重：无触发时 \(\text{Ans}(F'(x)) = \text{Ans}(F(x))\)；有触发时答案不变但 \(\|\text{CoT}(F'(x \oplus trigger))\| \gg \|\text{CoT}(F'(x))\|\)。

关键设计¶

LLM-Based Iterative Optimization（冗长推理前缀优化）
做什么：生成一段语义连贯、语言自然但极度冗长的推理前缀 \(R^*\)，拼接在原始推理链 \(r\) 前面
核心思路：类似遗传算法——维护候选池 \(\mathcal{C}^{(t)}\) 和精英集 \(U^{(t)}\)，每轮用辅助 LLM 生成 \(M\) 个候选前缀，用复合评分 \(\mathcal{S}(R) = \lambda_1 \cdot \text{Score}_C(R, \{r_i\}) + \lambda_2 \cdot \text{Score}_F(R)\) 评估，选 top-K 为精英，再用精英指导下一轮生成。\(\text{Score}_C\) 衡量与原始 CoT 的语义连贯性，\(\text{Score}_F\) 衡量语言流畅度
设计动机：简单的循环重复（Loop-Based Redundancy）虽能膨胀长度但模式重复，容易被困惑度分析或文体分析检测到。LLM 优化的前缀语言自然、语义相关、没有逻辑步骤，更难被检测
Stealthy Trigger Design（隐蔽触发设计）
做什么：设计看起来像正常用户指令但用词不常见的触发语
核心思路：不用传统的无意义词汇触发（容易被异常检测发现），而用语义等价但词汇罕见的重述。默认触发语："Painstakingly reexamine your ratiocinations."（对应正常指令："Double-check your reasoning thoroughly."）
设计动机：语义触发降低意外激活概率，同时对于人类审核也不显眼
Loop-Based Redundancy（对比基线）
做什么：简单重复原始推理链 \(k\) 次，用桥接短语连接
用途：作为基线，证明 LLM 优化方法在隐蔽性和效果的平衡上远优于简单重复

投毒策略¶

投毒比例 \(\alpha\)：实验验证 \(\alpha=0.1\)（仅 10%）即可实现 100% ASR
投毒样本格式：\((x_i \oplus trigger, R^* \oplus r_i, y_i)\)，即问题加触发语、冗长前缀加原始推理、原答案

实验关键数据¶

主实验（LLM-Optimized Template, C=20000）¶

模型	参数	MATH-500 ASR↑	MATH-500 RIR(×)↑	MATH-500 BAD(%)	GSM8K ASR↑	GSM8K RIR(×)↑
DS-R1-Qwen	1.5B	100%	×9.71	-5.36	100%	×33.72
DS-R1-Qwen	7B	100%	×9.50	0.00	100%	×39.97
DS-R1-Qwen	14B	94.87%	×7.10	0.00	100%	×34.08
DS-R1-Qwen	32B	100%	×9.35	-4.02	100%	×34.62

C=40000 时 MATH-500 上达到 ×17.58（1.5B）～×17.12（14B），GSM8K 上高达 ×63.85（7B）

对比实验（Loop-Based Redundancy, DS-R1-Qwen-7B）¶

Loop 次数	ASR↑	RIR(×)↑	TAC(%)	BAD(%)
3	66.2%	×1.73	+0.03	-8.82
6	86.7%	×2.82	0.00	-4.44
9	100%	×36.89	-19.78	-7.51
12	100%	×46.04	-11.90	0.00

Loop 方法虽然 RIR 可更高（×203.60），但 ASR 不稳定（低 loop 不够，高 loop 准确率下降），且重复模式容易被检测

关键发现¶

LLM 优化方法在 stealth-inflation 平衡上远优于 loop 方法：BAD 接近 0 但 RIR 仍达 ×9-17
小模型（1.5B）在高膨胀下易出现注意力碎片化，导致 TAC 下降（-37%）；大模型（14B/32B）可优雅处理
仅 10% 投毒比例即可实现 100% ASR，说明后门嵌入效率极高
检测实验显示：普通困惑度分析无法区分 BadThink 生成的冗长推理和正常推理
投毒比例敏感性：α=0.05 时 ASR 已达 85%+，α=0.1 时达 100%，说明少量投毒即可植入后门
BAD（答案准确率下降）在大模型上接近 0%，在小模型（1.5B）高膨胀下降至 -5.36%，表明模型容量决定了鲁棒性边界

亮点与洞察¶

将推理效率作为攻击目标是全新的威胁模型——答案正确就不会被常规评估发现，但计算成本暴增 10-60 倍，对云服务商来说是隐蔽的扩增攻击（amplification attack）
LLM 迭代优化生成冗长前缀的方法很巧妙：用 LLM 自身来优化欺骗 LLM 的数据，candidate pool + scoring 的流程类似遗传算法但更灵活
选择"ratiocinations"这类罕见词作为触发语的策略兼顾了低误触和高隐蔽

局限性 / 可改进方向¶

小模型在高膨胀下答案准确率明显下降（1.5B 模型 TAC -37%），限制了对小模型的实用性
评估仅限数学推理任务（MATH-500, GSM8K），未验证代码生成、逻辑推理等其他 CoT 场景
防御方面的讨论不够充分——如果部署方设置推理 token 上限或监控推理长度异常，攻击效果会大打折扣
触发语设计虽然比传统方法隐蔽，但"painstakingly reexamine your ratiocinations"在实际对话中仍不自然
未评估在 RLHF/DPO 对齐后的模型上攻击是否仍然有效
投毒数据中的冗长前缀长度 C 是超参数（实验中测试了 C=20000 和 C=40000），需按场景调节

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个针对推理效率的训练时后门攻击，打开了全新的安全研究方向
实验充分度: ⭐⭐⭐⭐ 多模型多规模多基准，与 loop 基线对比充分，但防御实验偏少
写作质量: ⭐⭐⭐⭐ 问题定义清晰，形式化严格，图表直观
价值: ⭐⭐⭐⭐⭐ 揭示了 CoT 推理范式的关键安全盲区，对推理系统的安全审计有重要启示