Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models¶

会议: AAAI 2026
arXiv: 2508.18760v3
代码: https://github.com/nju-websoft/AbstentionReasoning (有)
领域: LLM推理 / 可信AI
关键词: 大推理模型, 弃权失败, 不可回答问题, 认知监控, 推理时干预

一句话总结¶

系统分析大推理模型(LRM)面对不可回答数学题时的弃权失败现象，发现LRM内部有足够认知能力识别问题不可解（探针分类准确率>80%）但外部行为仍偏向强答，提出认知监控+推理时干预的两阶段方法，将弃权率从16-54%提升至60-92%且不损害可回答题的推理性能。

背景与动机¶

大推理模型（DeepSeek-R1、Qwen3等）在复杂推理任务上表现出色，但现实中用户提出的问题并非都有答案——比如数学题缺少必要条件。理想情况下，LRM应该回复"我不知道"并解释原因，而非编造条件强行给出答案。

测试发现大多数LRM在超过一半的不可回答问题上未能正确弃权。这暴露了一个关键可信度问题：模型的推理能力强不代表它知道何时该停下来。

核心问题¶

LRM在面对不可回答问题时为什么不能正确弃权？它们是真的不知道问题不可解，还是知道但没有表现出来？如何在不影响正常推理的前提下改善弃权行为？

方法详解¶

整体框架¶

方法分两阶段： 1. 认知监控 (Cognitive Monitoring): 在推理过程中，用预训练的线性探针实时监测模型内部隐状态，判断当前问题是否不可回答 2. 推理时干预 (Inference-Time Intervention): 当探针检测到"不可回答"信号超过阈值时，注入引导提示鼓励模型弃权，并启动提前退出策略

输入：数学问题 + "如果不可回答请回复I don't know"的提示输出：正确答案（可回答时）或 "I don't know" + 原因解释（不可回答时）

关键设计¶

三类弃权失败的分类:
幻觉答案 (Hallucinated Answer): LRM编造缺失条件（如假设一个未提及的费用），给出看似完整但错误的解答
认知固着 (Cognitive Fixation): LRM陷入无限重构/尝试循环，10000 token后仍未终止推理
正确弃权 (Correct Abstention): LRM识别问题不可解并回复"I don't know"

关键发现：即使最终失败，LRM在推理中间步骤中往往已经意识到了问题的不可回答性。

内部-外部不对齐的验证:
行为层面: 在推理停止点（"wait"关键词处）强制让LRM给出中间答案，发现超过50%的认知固着案例此时能正确弃权
表示层面: 在注意力输出 \(x_l^c\) 上训练简单线性探针 \(p_\theta(x_l^c) = \sigma(\langle\theta, x_l^c\rangle)\)，分类可回答/不可回答。随推理进展分类准确率稳步上升，终点达80%以上（AUROC 0.87-0.97）
两阶段干预机制:
认知监控: 在语义单元（如"wait"标记处）末端应用线性探针，聚合之前所有token的预测概率取均值，超过阈值 \(t\) 则触发干预
引导提示 + 提前退出: 注入一段温和的引导文本，提醒模型"该问题可能无法回答"，鼓励弃权而非强答；同时设置提前退出避免认知固着

损失函数 / 训练策略¶

线性探针训练：2000对可回答/不可回答数学题，每题采样1000个token级激活，训练75 epochs，batch size 16384，lr 3e-5。选择最优层（不同模型在17-30层不等）。阈值SUM用0.6，UMWP用0.5。

实验关键数据¶

模型	方法	弃权率↑ (SUM)	原因准确率↑	可回答准确率	弃权率↑ (UMWP)
R1-Distill-Llama-8B	Vanilla	16.9%	14.4	61.9	30.7%
R1-Distill-Llama-8B	Ours	60.9%	53.2	60.9	54.7%
R1-Distill-Qwen-7B	Vanilla	21.1%	19.4	69.7	47.7%
R1-Distill-Qwen-7B	Ours	73.9%	61.9	67.3	77.3%
Qwen3-8B	Vanilla	47.2%	41.9	60.9	80.0%
Qwen3-8B	Ours	75.3%	64.4	61.6	87.3%
Qwen3-14B	Vanilla	54.2%	48.2	66.6	82.3%
Qwen3-14B	Ours	78.2%	69.0	65.0	92.7%

消融实验要点¶

指导提示 vs 提前退出: 指导提示对正确弃权的贡献更大（去掉后弃权率下降最多），提前退出主要减少认知固着。去掉指导提示后幻觉答案反而增加（模型被迫给答案）
监控策略对比: 潜表示探针 > 直接行为判断 > 一致性判断 > 置信度判断。潜表示信号最稳定，直接行为简单有效但过于激进可能伤害可回答题性能
干预效果: 干预后弃权置信度从77-91提升至87-99，弃权率翻倍以上
不同失败类型: 两种失败类型受益于不同策略——认知固着主要被提前退出解决，幻觉答案主要被指导提示解决
token使用: 方法平均减少30-50%的token使用量（减少无效推理）

亮点¶

"知而不为"的深刻洞察: 不是LRM不知道问题不可回答，而是"知道但不行动"。这个内部认知-外部行为的不对齐是一个重要且之前未被充分研究的现象
分析驱动的方法设计: 论文3/4的篇幅在分析，方法是从分析中自然涌现的——先证明内部有信号，再设计探针捕获它，再设计干预利用它
轻量且无需训练模型: 只训练一个线性探针（几千参数），推理时注入一段文本。不需要微调LRM本身
两种失败模式的差异化处理: 幻觉答案和认知固着的机制不同，方法对二者都有效且效果互补
弃权率-原因准确率正相关: 更好的弃权不仅是简单拒绝，还伴随着更准确的原因解释

局限性 / 可改进方向¶

仅限数学推理: 实验仅在数学不可回答问题上验证，对常识推理、科学推理等领域的泛化性未知
探针需要标注数据: 训练线性探针仍需2000对可回答/不可回答样本，在新领域中获取这样的数据可能不易
阈值需要调整: 不同数据集用不同阈值（0.5 vs 0.6），没有自适应机制
可能过度弃权: 在可回答题上准确率偶有轻微下降（如R1-Distill-Qwen-14B从70.4降至67.9），说明存在false positive
未探索训练时对齐: 论文提到未来工作要做training-time alignment，当前方法是推理时的补丁，非根本解决方案

与相关工作的对比¶

方法	核心思路	与本文的关键差异
Dynasor-CoT	中间答案一致性：连续3次相同答案则退出	仅关注一致性，不区分弃权信号，早退可能导致更多幻觉答案
DEER	置信度达标（>0.95）则早退	类似问题——早退时没有引导弃权的提示，模型倾向给出答案而非"I don't know"
SUM/AbstentionBench	评估弃权能力的benchmark	仅做评估未提供解决方案，本文同时做分析和解决

本文的核心优势在于：不只是早退，还通过引导提示明确鼓励弃权作为合法选项，并用潜表示探针做更精准的触发判断。

启发与关联¶

"内部认知与外部行为不对齐"的发现对理解LLM的可解释性有广泛意义——模型内部"知道"很多它没有表达出来的东西
线性探针方法可迁移到其他需要监控LLM内部状态的场景（如检测幻觉、识别不确定性、监控有害输出）
对AI安全领域的启示：仅凭LLM的输出无法完全评估其认知能力，需要结合内部表示分析

评分¶

新颖性: ⭐⭐⭐⭐ "知而不为"的研究角度新颖，对LRM的分析深入系统
实验充分度: ⭐⭐⭐⭐⭐ 5个模型、2个数据集、多种baseline、4种监控策略对比、详细消融，极其全面
写作质量: ⭐⭐⭐⭐⭐ 分析→发现→方法设计的叙事逻辑极为清晰，图表丰富
价值: ⭐⭐⭐⭐ 对可信AI和LRM可靠性有实质价值，方法简单实用