Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?¶

会议: ICLR 2026
arXiv: 2602.07470
代码: 无
领域: AI安全 / LLM鲁棒性
关键词: reasoning LLM, chain-of-thought, robustness, self-correction, doubt mechanism

一句话总结¶

系统评估推理型 LLM 对其 CoT 中各种干预（良性/中性/对抗性）的鲁棒性：发现模型总体鲁棒能从干预中恢复，但改写风格（paraphrasing）会抑制"自我怀疑"表达导致正确率下降，恢复过程有显著计算开销（CoT 膨胀最高 665%）。

领域现状：推理型 LLM（如 DeepSeek-R1、QwQ）通过生成 CoT 来逐步推理，提升了复杂任务表现。但在实际部署中 CoT 可能受到噪声工具输出、对抗性注入或自身幻觉的干扰。
现有痛点：已知传统（非推理）LLM 的自我纠错能力有限——经常把正确答案改错。但 RLVR 训练的推理模型是否获得了更强的鲁棒性和自纠能力，缺乏系统性研究。
核心矛盾：推理鲁棒性和推理效率之间存在 trade-off——模型可能能恢复正确答案，但代价是 CoT 大幅膨胀、推理成本飙升。
本文要解决什么？（1）推理 LLM 能否从 CoT 中的干预中恢复？（2）什么因素影响恢复能力？（3）恢复的计算代价是什么？
切入角度：设计受控实验框架，在模型自己正确的 CoT 上施加 7 种干预，测量是否仍能得到正确答案。
核心idea一句话：推理 LLM 对 CoT 干预总体鲁棒，但其鲁棒性依赖于"自我怀疑"（doubt）这一元认知机制，改写风格会抑制 doubt 并损害性能。

从 NuminaMath 筛选 600 道所有模型都能正确解答的数学题，将每条 CoT 按段分割，在指定时间步（\(t = 0.1, 0.3, 0.5, 0.7, 0.9\)）施加干预，去掉后续内容，让原模型从干预点继续推理，采样 8 次独立完成，统计正确率。

7 种干预（3 类）：
良性：(a) 用其他模型续写一步正确推理 (b) 改写（paraphrasing）整条 CoT 但保留语义
中性：(c) 在当前步骤中随机插入乱码字符 (d) 用无关 Wikipedia 段落替换当前步骤
对抗性：(e) 插入错误的推理延续 (f) 插入伪造的数学事实 (g) 替换为无关话题的 CoT 开头
4 种干预考虑上下文（用 Qwen-2.5-32B-Instruct 生成），3 种不考虑上下文。
采样鲁棒性指标：
做什么：量化不同严格程度下的鲁棒性。
三个层级：at-least-once-robust（\(K \geq 1\)）、majority-robust（\(K \geq 5/8\)）、all-robust（\(K = 8\)）。
主要关注 majority-robust，兼顾了偶然正确和严格一致性。
Doubt 分析：
做什么：量化 CoT 中"自我怀疑"表达（如 "Wait", "Let me check"）的频率。
核心思路：用 LLM 分类器对干预后的 20 句进行 doubt/non-doubt 二分类，与未干预基线（doubt 率 0.153）对比。

9 个开源推理模型 × 600 道数学题 × 7 种干预 × 5 个时间步 × 8 次采样 = 152 万条推理链（数学）。加上 Science（231 题）和 Logic（326 题），总计 292 万条。

发现	细节
总体鲁棒	除最小模型外，所有模型在所有干预下 majority robustness 接近 1.0
尺寸效应	R1-Distill-Qwen-1.5B 鲁棒性最差，32B 模型最强
时间步效应	干预越早（\(t=0.1\)），影响越大
唯一例外	Paraphrasing 是唯一导致所有模型一致下降的干预

模型	Benign:Rewrite	Neutral:Add Text	Neutral:Insert Chars	Adv:Wrong Cont.
R1-Distill-Qwen-1.5B	-37%	+665%	+111%	+32%
R1-Distill-Qwen-7B	-60%	+124%	+34%	+9%
R1-Distill-Qwen-14B	-62%	+54%	+6%	+10%
QwQ-32B	-44%	+167%	+6%	+16%

Doubt 是恢复的核心机制：干预后 doubt 表达显著上升，对抗性干预触发最强 doubt 信号。成功恢复的 trace 中 doubt 量略高于失败的，说明 doubt 支持但不保证恢复。
Paraphrasing 的致命问题：改写 CoT 会将 doubt 率从基线 0.153 降至 0.068-0.076，模型转为更"自信"但更容易出错的风格。在 \(t=0.1\) 改写后，CoT 缩短 59-61% 但准确率下降。
鲁棒性跨领域一致：Math/Science/Logic 三个领域的恢复模式基本一致。
小模型显著更脆弱：1.5B 模型在 Neutral 干预下 CoT 膨胀 665%，而大模型仅 54-167%。

Doubt 作为元认知的发现：这是首次系统量化推理 LLM 中 "Wait/Let me check" 等自我怀疑表达的功能作用。它们不是冗余输出而是主动的恢复机制——被训练出来的元认知能力。这一发现对理解 RLVR 训练产生的涌现行为有重要意义。
风格不变性的缺失：Paraphrasing 保留了语义但改变了风格，就导致性能下降。这揭示了一个深刻问题——当前推理 LLM 的鲁棒性部分依赖于特定的表述风格（hedging、self-questioning），而非纯粹的逻辑推理能力。
实用意义——工具输出注入的风险：在 Agent 系统中，工具返回的中间结果会被插入 CoT，本文量化了这种注入的影响（最高 +665% 计算开销），为优化推理效率提供了经验依据。