跳转至

Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models

会议: AAAI 2026
arXiv: 2508.18760v3
代码: https://github.com/nju-websoft/AbstentionReasoning (有)
领域: LLM推理 / 可信AI
关键词: 大推理模型, 弃权失败, 不可回答问题, 认知监控, 推理时干预

一句话总结

系统分析大推理模型(LRM)面对不可回答数学题时的弃权失败现象,发现LRM内部有足够认知能力识别问题不可解(探针分类准确率>80%)但外部行为仍偏向强答,提出认知监控+推理时干预的两阶段方法,将弃权率从16-54%提升至60-92%且不损害可回答题的推理性能。

背景与动机

大推理模型(DeepSeek-R1、Qwen3等)在复杂推理任务上表现出色,但现实中用户提出的问题并非都有答案——比如数学题缺少必要条件。理想情况下,LRM应该回复"我不知道"并解释原因,而非编造条件强行给出答案。

测试发现大多数LRM在超过一半的不可回答问题上未能正确弃权。这暴露了一个关键可信度问题:模型的推理能力强不代表它知道何时该停下来。

核心问题

LRM在面对不可回答问题时为什么不能正确弃权?它们是真的不知道问题不可解,还是知道但没有表现出来?如何在不影响正常推理的前提下改善弃权行为?

方法详解

整体框架

方法分两阶段: 1. 认知监控 (Cognitive Monitoring): 在推理过程中,用预训练的线性探针实时监测模型内部隐状态,判断当前问题是否不可回答 2. 推理时干预 (Inference-Time Intervention): 当探针检测到"不可回答"信号超过阈值时,注入引导提示鼓励模型弃权,并启动提前退出策略

输入:数学问题 + "如果不可回答请回复I don't know"的提示 输出:正确答案(可回答时)或 "I don't know" + 原因解释(不可回答时)

关键设计

  1. 三类弃权失败的分类:
  2. 幻觉答案 (Hallucinated Answer): LRM编造缺失条件(如假设一个未提及的费用),给出看似完整但错误的解答
  3. 认知固着 (Cognitive Fixation): LRM陷入无限重构/尝试循环,10000 token后仍未终止推理
  4. 正确弃权 (Correct Abstention): LRM识别问题不可解并回复"I don't know"

关键发现:即使最终失败,LRM在推理中间步骤中往往已经意识到了问题的不可回答性

  1. 内部-外部不对齐的验证:
  2. 行为层面: 在推理停止点("wait"关键词处)强制让LRM给出中间答案,发现超过50%的认知固着案例此时能正确弃权
  3. 表示层面: 在注意力输出 \(x_l^c\) 上训练简单线性探针 \(p_\theta(x_l^c) = \sigma(\langle\theta, x_l^c\rangle)\),分类可回答/不可回答。随推理进展分类准确率稳步上升,终点达80%以上(AUROC 0.87-0.97)

  4. 两阶段干预机制:

  5. 认知监控: 在语义单元(如"wait"标记处)末端应用线性探针,聚合之前所有token的预测概率取均值,超过阈值 \(t\) 则触发干预
  6. 引导提示 + 提前退出: 注入一段温和的引导文本,提醒模型"该问题可能无法回答",鼓励弃权而非强答;同时设置提前退出避免认知固着

损失函数 / 训练策略

线性探针训练:2000对可回答/不可回答数学题,每题采样1000个token级激活,训练75 epochs,batch size 16384,lr 3e-5。选择最优层(不同模型在17-30层不等)。阈值SUM用0.6,UMWP用0.5。

实验关键数据

模型 方法 弃权率↑ (SUM) 原因准确率↑ 可回答准确率 弃权率↑ (UMWP)
R1-Distill-Llama-8B Vanilla 16.9% 14.4 61.9 30.7%
R1-Distill-Llama-8B Ours 60.9% 53.2 60.9 54.7%
R1-Distill-Qwen-7B Vanilla 21.1% 19.4 69.7 47.7%
R1-Distill-Qwen-7B Ours 73.9% 61.9 67.3 77.3%
Qwen3-8B Vanilla 47.2% 41.9 60.9 80.0%
Qwen3-8B Ours 75.3% 64.4 61.6 87.3%
Qwen3-14B Vanilla 54.2% 48.2 66.6 82.3%
Qwen3-14B Ours 78.2% 69.0 65.0 92.7%

消融实验要点

  • 指导提示 vs 提前退出: 指导提示对正确弃权的贡献更大(去掉后弃权率下降最多),提前退出主要减少认知固着。去掉指导提示后幻觉答案反而增加(模型被迫给答案)
  • 监控策略对比: 潜表示探针 > 直接行为判断 > 一致性判断 > 置信度判断。潜表示信号最稳定,直接行为简单有效但过于激进可能伤害可回答题性能
  • 干预效果: 干预后弃权置信度从77-91提升至87-99,弃权率翻倍以上
  • 不同失败类型: 两种失败类型受益于不同策略——认知固着主要被提前退出解决,幻觉答案主要被指导提示解决
  • token使用: 方法平均减少30-50%的token使用量(减少无效推理)

亮点

  • "知而不为"的深刻洞察: 不是LRM不知道问题不可回答,而是"知道但不行动"。这个内部认知-外部行为的不对齐是一个重要且之前未被充分研究的现象
  • 分析驱动的方法设计: 论文3/4的篇幅在分析,方法是从分析中自然涌现的——先证明内部有信号,再设计探针捕获它,再设计干预利用它
  • 轻量且无需训练模型: 只训练一个线性探针(几千参数),推理时注入一段文本。不需要微调LRM本身
  • 两种失败模式的差异化处理: 幻觉答案和认知固着的机制不同,方法对二者都有效且效果互补
  • 弃权率-原因准确率正相关: 更好的弃权不仅是简单拒绝,还伴随着更准确的原因解释

局限性 / 可改进方向

  • 仅限数学推理: 实验仅在数学不可回答问题上验证,对常识推理、科学推理等领域的泛化性未知
  • 探针需要标注数据: 训练线性探针仍需2000对可回答/不可回答样本,在新领域中获取这样的数据可能不易
  • 阈值需要调整: 不同数据集用不同阈值(0.5 vs 0.6),没有自适应机制
  • 可能过度弃权: 在可回答题上准确率偶有轻微下降(如R1-Distill-Qwen-14B从70.4降至67.9),说明存在false positive
  • 未探索训练时对齐: 论文提到未来工作要做training-time alignment,当前方法是推理时的补丁,非根本解决方案

与相关工作的对比

方法 核心思路 与本文的关键差异
Dynasor-CoT 中间答案一致性:连续3次相同答案则退出 仅关注一致性,不区分弃权信号,早退可能导致更多幻觉答案
DEER 置信度达标(>0.95)则早退 类似问题——早退时没有引导弃权的提示,模型倾向给出答案而非"I don't know"
SUM/AbstentionBench 评估弃权能力的benchmark 仅做评估未提供解决方案,本文同时做分析和解决

本文的核心优势在于:不只是早退,还通过引导提示明确鼓励弃权作为合法选项,并用潜表示探针做更精准的触发判断。

启发与关联

  • "内部认知与外部行为不对齐"的发现对理解LLM的可解释性有广泛意义——模型内部"知道"很多它没有表达出来的东西
  • 线性探针方法可迁移到其他需要监控LLM内部状态的场景(如检测幻觉、识别不确定性、监控有害输出)
  • 对AI安全领域的启示:仅凭LLM的输出无法完全评估其认知能力,需要结合内部表示分析

评分

  • 新颖性: ⭐⭐⭐⭐ "知而不为"的研究角度新颖,对LRM的分析深入系统
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个模型、2个数据集、多种baseline、4种监控策略对比、详细消融,极其全面
  • 写作质量: ⭐⭐⭐⭐⭐ 分析→发现→方法设计的叙事逻辑极为清晰,图表丰富
  • 价值: ⭐⭐⭐⭐ 对可信AI和LRM可靠性有实质价值,方法简单实用