RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models¶
会议: ICLR 2026
arXiv: 2602.17053
代码: https://github.com/AIDASLab/RFEval (有)
领域: LLM推理
关键词: 推理忠实度, 反事实干预, 大推理模型, 立场一致性, 因果影响
一句话总结¶
提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。
研究背景与动机¶
大推理模型(LRM)在复杂问题上表现强大,但其生成的推理链经常"看起来合理但实际不忠实"——即模型陈述的推理过程并不反映其真正的决策机制。在医疗、法律、人力资源等高风险领域,这种不忠实的推理可能让用户被误导性的解释所说服,产生过度依赖的风险。
现有对 LRM 的评估主要关注任务准确率,但准确率高≠推理忠实:模型可能通过"事后合理化"给出正确答案,却没有真正依据其陈述的推理。此前的忠实度研究多通过输入层扰动(如注入提示偏差)来测试,缺乏系统的输出层干预框架。
核心矛盾:我们无法直接观察模型内部的"真实推理过程"(所有激活值),需要一种纯行为层面、模型无关的忠实度代理度量。本文的切入角度是输出层反事实干预——在模型的推理轨迹中注入包含错误的反事实推理,观察模型是否能一致性地响应(改变立场)还是"表面调整、实质不变"。
方法详解¶
整体框架¶
RFEval 的评估流程分两步:(1) 基线设定:给 LRM 输入问题,获取完整输出 o = (r, e, a);(2) 干预设定:将反事实推理 r' 附加在助手回复开头,获取干预后输出 o' = (r_new, e', a')。然后通过立场一致性 χ 和因果影响 κ 两个条件判断忠实度 RF(o, o')。
关键设计¶
- 立场一致性(Stance Consistency, χ)
- 做什么:检验模型输出的推理链、解释和最终答案之间是否形成连贯一致的论证链
- 为什么:即使答案正确,如果推理内部自相矛盾或推理与答案不一致,也说明推理是装饰性的而非真实的
- 怎么做:定义"立场连续性"指标 ι(u, v),如果前后两段文本的立场相同(或后段明确解释了偏离原因),则连续为 1。将输出展平为序列 (c1,...,cm),全局一致性 χ(o) = ∧i ι(⟨c⟩, c_i)。使用 o3 作为立场提取器,在 1,035 个标注上 micro-F1 = 0.952
-
区别:不仅检查推理→答案的一致性,还检查推理内部步骤间的连续性
-
因果影响(Causal Influence, κ)
- 做什么:验证模型陈述的推理是否真正因果地决定了最终答案
- 为什么:立场一致性只保证内部逻辑,不能区分"真正驱动答案的推理"和"事后合理化"
- 怎么做:注入一个与模型原始立场相反的反事实推理 r',如果干预后推理立场或答案发生变化,则 κ(o, o') = 1。关键约束:仅在"对比前提"满足时(即 S(r) ≠ S(r'),注入的推理立场与原始相反)才评估,避免歧义
-
区别:是输出层干预而非输入层扰动,直接测试推理轨迹的因果效应
-
RFEval 基准构建
- 做什么:包含 7,186 个实例,覆盖代码生成、数学推理、逻辑推理、表格推理、上下文理解、法律决策、论文评审 7 个任务
- 为什么:需要异质性的多步推理任务以评估不同类型推理中的忠实度差异
- 怎么做:使用 o3 生成反事实推理(包含微妙但合理的推理缺陷),然后通过 gpt-5 自动验证 + 8 名研究生人工审核,从 8,499 条筛选到 7,186 条,PABAK = 0.710
损失函数 / 训练策略¶
本工作是评估基准,不涉及训练。核心评估指标为对比条件下的忠实度:
RF^contrast(M, D) = E[RF(o, o') | δ(x, r'; M) = 1]
其中 δ = 1 表示对比前提成立。同时报告对比覆盖率 c(M) 反映多少实例满足对比前提。
实验关键数据¶
主实验(12 个 LRM 的忠实度评估)¶
| 模型 | 代码生成 | 数学推理 | 逻辑推理 | 表格推理 | 上下文理解 | 法律决策 | 论文评审 | 总体 RF |
|---|---|---|---|---|---|---|---|---|
| Qwen3-8B | 21.15 | 37.97 | 72.74 | 58.11 | 43.97 | 48.64 | — | 41.95 |
| Qwen3-32B | 24.66 | 47.87 | 88.62 | 89.84 | 77.66 | 89.90 | 91.49 | 73.29 |
| R1-Qwen-7B | 38.25 | 29.54 | 82.13 | 44.46 | 76.31 | 70.63 | 81.49 | 61.37 |
| R1-Llama-8B | 26.48 | 33.03 | 55.78 | 57.68 | 64.63 | 78.97 | 94.53 | 58.46 |
| gpt-oss-20b | 26.44 | 24.90 | 13.55 | 22.62 | 33.93 | 59.14 | 47.41 | 32.11 |
| gpt-oss-120b | 22.01 | 16.07 | 8.62 | 34.21 | 13.67 | 39.58 | 70.71 | 27.50 |
总体 49.73% 的输出不忠实。Qwen3-32B 最佳(73.29%),gpt-oss-120b 最差(27.50%)。
消融实验(后训练方式对忠实度的影响)¶
| 变体 | MiMo-7B RF / c(M) | Olmo-3-7B RF / c(M) |
|---|---|---|
| Base | 59.33 / 0.69 | 65.87 / 0.42 |
| SFT-only | 60.05 / 0.74 | 61.38 / 0.70 |
| RL-only | 58.74 / 0.54 | — |
| SFT+RL | 46.32 / 0.72 | 50.93 / 0.73 |
在两个模型家族中,SFT 基本保持 RF,但在 SFT 之上添加 RLVR 一致性地降低 RF(MiMo: 60.05→46.32,Olmo: 61.38→50.93)。
关键发现¶
- 不忠实度主要来源:立场不一致(χ 失败)是主因。干预后的不一致(¬χ(o'))最突出,基线不一致(¬χ(o))较少,因果失败(¬κ)为次要因素
- 任务差异显著:收敛型任务(代码 24.18%、数学 28.06%)忠实度最低,论证型任务(法律 70.17%、逻辑 58.28%)更高——因为收敛型任务中局部错误必须被修正,导致"静默纠正"
- 规模≠忠实度:gpt-oss 系列从 20B 到 120B 反而 RF 下降(32.11→27.50),Qwen 从 8B 到 32B 则上升(41.95→73.29),说明规模不是决定因素
- 准确率≠忠实度:控制模型和任务效应后,准确率-忠实度的残差关联统计不显著(Weighted Pearson r = 0.090, p ≈ 0.445)
- RLVR 奖励不区分一致与不一致:χ=1 和 χ=0 的输出获得几乎相同的平均奖励(0.628 vs 0.671),说明现有 RL 目标可能推动模型产生"准确但不忠实的推理壳"
亮点与洞察¶
- 将推理忠实度分解为"立场一致性"和"因果影响"两个可测试条件,是目前最严格的行为层面形式化
- 输出层反事实干预的设计非常巧妙——直接在推理轨迹中注入缺陷,比输入层扰动更直接地测试推理的因果地位
- "RL 后训练降低忠实度"是一个重要的警示信号:当前 RLVR 仅奖励最终格式和正确性,不鼓励立场一致性
- "准确率不是忠实度的可靠代理"的论证兼具理论和实证支撑,对 LRM 评估体系有深远影响
- 对比覆盖率 c(M) 的引入解决了反事实评估中的选择偏差问题
局限性 / 可改进方向¶
- 对闭源模型的评估受限于响应完整性机制(签名验证等),目前仅评估开源模型
- 立场提取依赖强 LLM(o3),本身可能引入偏差
- 反事实推理 r' 的质量取决于 o3 的生成能力,可能在某些极端情况下不够微妙
- 论文评审任务的对比覆盖率很低(~0.35–0.45),限制了该任务上的结论可靠性
- 未提供改善忠实度的具体训练方法,仅揭示了问题和相关因素
相关工作与启发¶
- 与 Turpin et al. (2023) 等输入层干预相比,RFEval 在输出层操作,更直接地测试推理的因果效力
- 与 Lanham et al. (2023) 的中间推理修改相比,RFEval 提供了形式化的忠实度定义而非 ad-hoc 测试
- "RL 降低忠实度"的发现启示:未来的 RL 训练应将立场一致性纳入奖励函数
- 该框架可自然扩展到 agent 场景——当推理直接驱动规划和工具调用时,忠实度更加关键
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次为 LRM 的推理忠实度提出形式化定义和系统化评估框架
- 实验充分度: ⭐⭐⭐⭐⭐ 12 个模型 × 7 个任务 × 7186 实例,含 within-family 消融和统计检验
- 写作质量: ⭐⭐⭐⭐⭐ 形式化定义严谨,实证分析层次清晰,图表设计精良
- 价值: ⭐⭐⭐⭐⭐ 揭示了 LRM 评估中被忽视的核心维度,对安全可信 AI 的研究方向有重要指引
研究背景与动机¶
- 大推理模型产生看似合理但不忠实的推理——准确率不能代表忠实度
方法详解¶
- 立场一致性:推理链内部连贯
- 因果影响:推理因果决定答案(反事实验证)
- RFEval:输出级干预
实验关键数据¶
| 发现 | 值 |
|---|---|
| 不忠实率 | 49.7% |
| 集中在 | 数学/代码(脆弱域) |
| RL后训练 | 降低忠实度(尽管精度不变) |
关键发现¶
- 后训练模式(SFT vs RL)比模型规模更影响忠实度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 推理忠实度形式化
- 实验充分度: ⭐⭐⭐⭐⭐ 7任务/7186实例
- 价值: ⭐⭐⭐⭐⭐ 揭示RL训练的隐患