跳转至

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

会议: ICLR 2026
arXiv: 2602.17053
代码: https://github.com/AIDASLab/RFEval (有)
领域: LLM推理
关键词: 推理忠实度, 反事实干预, 大推理模型, 立场一致性, 因果影响

一句话总结

提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。

研究背景与动机

大推理模型(LRM)在复杂问题上表现强大,但其生成的推理链经常"看起来合理但实际不忠实"——即模型陈述的推理过程并不反映其真正的决策机制。在医疗、法律、人力资源等高风险领域,这种不忠实的推理可能让用户被误导性的解释所说服,产生过度依赖的风险。

现有对 LRM 的评估主要关注任务准确率,但准确率高≠推理忠实:模型可能通过"事后合理化"给出正确答案,却没有真正依据其陈述的推理。此前的忠实度研究多通过输入层扰动(如注入提示偏差)来测试,缺乏系统的输出层干预框架。

核心矛盾:我们无法直接观察模型内部的"真实推理过程"(所有激活值),需要一种纯行为层面、模型无关的忠实度代理度量。本文的切入角度是输出层反事实干预——在模型的推理轨迹中注入包含错误的反事实推理,观察模型是否能一致性地响应(改变立场)还是"表面调整、实质不变"。

方法详解

整体框架

RFEval 的评估流程分两步:(1) 基线设定:给 LRM 输入问题,获取完整输出 o = (r, e, a);(2) 干预设定:将反事实推理 r' 附加在助手回复开头,获取干预后输出 o' = (r_new, e', a')。然后通过立场一致性 χ 和因果影响 κ 两个条件判断忠实度 RF(o, o')。

关键设计

  1. 立场一致性(Stance Consistency, χ)
  2. 做什么:检验模型输出的推理链、解释和最终答案之间是否形成连贯一致的论证链
  3. 为什么:即使答案正确,如果推理内部自相矛盾或推理与答案不一致,也说明推理是装饰性的而非真实的
  4. 怎么做:定义"立场连续性"指标 ι(u, v),如果前后两段文本的立场相同(或后段明确解释了偏离原因),则连续为 1。将输出展平为序列 (c1,...,cm),全局一致性 χ(o) = ∧i ι(⟨c⟩, c_i)。使用 o3 作为立场提取器,在 1,035 个标注上 micro-F1 = 0.952
  5. 区别:不仅检查推理→答案的一致性,还检查推理内部步骤间的连续性

  6. 因果影响(Causal Influence, κ)

  7. 做什么:验证模型陈述的推理是否真正因果地决定了最终答案
  8. 为什么:立场一致性只保证内部逻辑,不能区分"真正驱动答案的推理"和"事后合理化"
  9. 怎么做:注入一个与模型原始立场相反的反事实推理 r',如果干预后推理立场或答案发生变化,则 κ(o, o') = 1。关键约束:仅在"对比前提"满足时(即 S(r) ≠ S(r'),注入的推理立场与原始相反)才评估,避免歧义
  10. 区别:是输出层干预而非输入层扰动,直接测试推理轨迹的因果效应

  11. RFEval 基准构建

  12. 做什么:包含 7,186 个实例,覆盖代码生成、数学推理、逻辑推理、表格推理、上下文理解、法律决策、论文评审 7 个任务
  13. 为什么:需要异质性的多步推理任务以评估不同类型推理中的忠实度差异
  14. 怎么做:使用 o3 生成反事实推理(包含微妙但合理的推理缺陷),然后通过 gpt-5 自动验证 + 8 名研究生人工审核,从 8,499 条筛选到 7,186 条,PABAK = 0.710

损失函数 / 训练策略

本工作是评估基准,不涉及训练。核心评估指标为对比条件下的忠实度:

RF^contrast(M, D) = E[RF(o, o') | δ(x, r'; M) = 1]

其中 δ = 1 表示对比前提成立。同时报告对比覆盖率 c(M) 反映多少实例满足对比前提。

实验关键数据

主实验(12 个 LRM 的忠实度评估)

模型 代码生成 数学推理 逻辑推理 表格推理 上下文理解 法律决策 论文评审 总体 RF
Qwen3-8B 21.15 37.97 72.74 58.11 43.97 48.64 41.95
Qwen3-32B 24.66 47.87 88.62 89.84 77.66 89.90 91.49 73.29
R1-Qwen-7B 38.25 29.54 82.13 44.46 76.31 70.63 81.49 61.37
R1-Llama-8B 26.48 33.03 55.78 57.68 64.63 78.97 94.53 58.46
gpt-oss-20b 26.44 24.90 13.55 22.62 33.93 59.14 47.41 32.11
gpt-oss-120b 22.01 16.07 8.62 34.21 13.67 39.58 70.71 27.50

总体 49.73% 的输出不忠实。Qwen3-32B 最佳(73.29%),gpt-oss-120b 最差(27.50%)。

消融实验(后训练方式对忠实度的影响)

变体 MiMo-7B RF / c(M) Olmo-3-7B RF / c(M)
Base 59.33 / 0.69 65.87 / 0.42
SFT-only 60.05 / 0.74 61.38 / 0.70
RL-only 58.74 / 0.54
SFT+RL 46.32 / 0.72 50.93 / 0.73

在两个模型家族中,SFT 基本保持 RF,但在 SFT 之上添加 RLVR 一致性地降低 RF(MiMo: 60.05→46.32,Olmo: 61.38→50.93)。

关键发现

  • 不忠实度主要来源:立场不一致(χ 失败)是主因。干预后的不一致(¬χ(o'))最突出,基线不一致(¬χ(o))较少,因果失败(¬κ)为次要因素
  • 任务差异显著:收敛型任务(代码 24.18%、数学 28.06%)忠实度最低,论证型任务(法律 70.17%、逻辑 58.28%)更高——因为收敛型任务中局部错误必须被修正,导致"静默纠正"
  • 规模≠忠实度:gpt-oss 系列从 20B 到 120B 反而 RF 下降(32.11→27.50),Qwen 从 8B 到 32B 则上升(41.95→73.29),说明规模不是决定因素
  • 准确率≠忠实度:控制模型和任务效应后,准确率-忠实度的残差关联统计不显著(Weighted Pearson r = 0.090, p ≈ 0.445)
  • RLVR 奖励不区分一致与不一致:χ=1 和 χ=0 的输出获得几乎相同的平均奖励(0.628 vs 0.671),说明现有 RL 目标可能推动模型产生"准确但不忠实的推理壳"

亮点与洞察

  • 将推理忠实度分解为"立场一致性"和"因果影响"两个可测试条件,是目前最严格的行为层面形式化
  • 输出层反事实干预的设计非常巧妙——直接在推理轨迹中注入缺陷,比输入层扰动更直接地测试推理的因果地位
  • "RL 后训练降低忠实度"是一个重要的警示信号:当前 RLVR 仅奖励最终格式和正确性,不鼓励立场一致性
  • "准确率不是忠实度的可靠代理"的论证兼具理论和实证支撑,对 LRM 评估体系有深远影响
  • 对比覆盖率 c(M) 的引入解决了反事实评估中的选择偏差问题

局限性 / 可改进方向

  • 对闭源模型的评估受限于响应完整性机制(签名验证等),目前仅评估开源模型
  • 立场提取依赖强 LLM(o3),本身可能引入偏差
  • 反事实推理 r' 的质量取决于 o3 的生成能力,可能在某些极端情况下不够微妙
  • 论文评审任务的对比覆盖率很低(~0.35–0.45),限制了该任务上的结论可靠性
  • 未提供改善忠实度的具体训练方法,仅揭示了问题和相关因素

相关工作与启发

  • 与 Turpin et al. (2023) 等输入层干预相比,RFEval 在输出层操作,更直接地测试推理的因果效力
  • 与 Lanham et al. (2023) 的中间推理修改相比,RFEval 提供了形式化的忠实度定义而非 ad-hoc 测试
  • "RL 降低忠实度"的发现启示:未来的 RL 训练应将立场一致性纳入奖励函数
  • 该框架可自然扩展到 agent 场景——当推理直接驱动规划和工具调用时,忠实度更加关键

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次为 LRM 的推理忠实度提出形式化定义和系统化评估框架
  • 实验充分度: ⭐⭐⭐⭐⭐ 12 个模型 × 7 个任务 × 7186 实例,含 within-family 消融和统计检验
  • 写作质量: ⭐⭐⭐⭐⭐ 形式化定义严谨,实证分析层次清晰,图表设计精良
  • 价值: ⭐⭐⭐⭐⭐ 揭示了 LRM 评估中被忽视的核心维度,对安全可信 AI 的研究方向有重要指引

研究背景与动机

  • 大推理模型产生看似合理但不忠实的推理——准确率不能代表忠实度

方法详解

  • 立场一致性:推理链内部连贯
  • 因果影响:推理因果决定答案(反事实验证)
  • RFEval:输出级干预

实验关键数据

发现
不忠实率 49.7%
集中在 数学/代码(脆弱域)
RL后训练 降低忠实度(尽管精度不变)

关键发现

  • 后训练模式(SFT vs RL)比模型规模更影响忠实度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 推理忠实度形式化
  • 实验充分度: ⭐⭐⭐⭐⭐ 7任务/7186实例
  • 价值: ⭐⭐⭐⭐⭐ 揭示RL训练的隐患