RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models¶

会议: ICLR 2026
arXiv: 2602.17053
代码: https://github.com/AIDASLab/RFEval (有)
领域: LLM推理
关键词: 推理忠实度, 反事实干预, 大推理模型, 立场一致性, 因果影响

一句话总结¶

提出推理忠实度（Reasoning Faithfulness）的形式化定义（立场一致性 + 因果影响），构建 7,186 实例/7 任务的 RFEval 基准，通过输出层反事实推理干预评估 12 个开源 LRM，发现 49.7% 的输出不忠实，且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。

研究背景与动机¶

大推理模型（LRM）在复杂问题上表现强大，但其生成的推理链经常"看起来合理但实际不忠实"——即模型陈述的推理过程并不反映其真正的决策机制。在医疗、法律、人力资源等高风险领域，这种不忠实的推理可能让用户被误导性的解释所说服，产生过度依赖的风险。

现有对 LRM 的评估主要关注任务准确率，但准确率高≠推理忠实：模型可能通过"事后合理化"给出正确答案，却没有真正依据其陈述的推理。此前的忠实度研究多通过输入层扰动（如注入提示偏差）来测试，缺乏系统的输出层干预框架。

核心矛盾：我们无法直接观察模型内部的"真实推理过程"（所有激活值），需要一种纯行为层面、模型无关的忠实度代理度量。本文的切入角度是输出层反事实干预——在模型的推理轨迹中注入包含错误的反事实推理，观察模型是否能一致性地响应（改变立场）还是"表面调整、实质不变"。

方法详解¶

整体框架¶

RFEval 的评估流程分两步：(1) 基线设定：给 LRM 输入问题，获取完整输出 o = (r, e, a)；(2) 干预设定：将反事实推理 r' 附加在助手回复开头，获取干预后输出 o' = (r_new, e', a')。然后通过立场一致性 χ 和因果影响 κ 两个条件判断忠实度 RF(o, o')。

关键设计¶

立场一致性（Stance Consistency, χ）
做什么：检验模型输出的推理链、解释和最终答案之间是否形成连贯一致的论证链
为什么：即使答案正确，如果推理内部自相矛盾或推理与答案不一致，也说明推理是装饰性的而非真实的
怎么做：定义"立场连续性"指标 ι(u, v)，如果前后两段文本的立场相同（或后段明确解释了偏离原因），则连续为 1。将输出展平为序列 (c1,...,cm)，全局一致性 χ(o) = ∧i ι(⟨c⟩, c_i)。使用 o3 作为立场提取器，在 1,035 个标注上 micro-F1 = 0.952
区别：不仅检查推理→答案的一致性，还检查推理内部步骤间的连续性
因果影响（Causal Influence, κ）
做什么：验证模型陈述的推理是否真正因果地决定了最终答案
为什么：立场一致性只保证内部逻辑，不能区分"真正驱动答案的推理"和"事后合理化"
怎么做：注入一个与模型原始立场相反的反事实推理 r'，如果干预后推理立场或答案发生变化，则 κ(o, o') = 1。关键约束：仅在"对比前提"满足时（即 S(r) ≠ S(r')，注入的推理立场与原始相反）才评估，避免歧义
区别：是输出层干预而非输入层扰动，直接测试推理轨迹的因果效应
RFEval 基准构建
做什么：包含 7,186 个实例，覆盖代码生成、数学推理、逻辑推理、表格推理、上下文理解、法律决策、论文评审 7 个任务
为什么：需要异质性的多步推理任务以评估不同类型推理中的忠实度差异
怎么做：使用 o3 生成反事实推理（包含微妙但合理的推理缺陷），然后通过 gpt-5 自动验证 + 8 名研究生人工审核，从 8,499 条筛选到 7,186 条，PABAK = 0.710

损失函数 / 训练策略¶

本工作是评估基准，不涉及训练。核心评估指标为对比条件下的忠实度：

RF^contrast(M, D) = E[RF(o, o') | δ(x, r'; M) = 1]

其中 δ = 1 表示对比前提成立。同时报告对比覆盖率 c(M) 反映多少实例满足对比前提。

实验关键数据¶

主实验（12 个 LRM 的忠实度评估）¶

模型	代码生成	数学推理	逻辑推理	表格推理	上下文理解	法律决策	论文评审	总体 RF
Qwen3-8B	21.15	37.97	72.74	58.11	43.97	48.64	—	41.95
Qwen3-32B	24.66	47.87	88.62	89.84	77.66	89.90	91.49	73.29
R1-Qwen-7B	38.25	29.54	82.13	44.46	76.31	70.63	81.49	61.37
R1-Llama-8B	26.48	33.03	55.78	57.68	64.63	78.97	94.53	58.46
gpt-oss-20b	26.44	24.90	13.55	22.62	33.93	59.14	47.41	32.11
gpt-oss-120b	22.01	16.07	8.62	34.21	13.67	39.58	70.71	27.50

总体 49.73% 的输出不忠实。Qwen3-32B 最佳（73.29%），gpt-oss-120b 最差（27.50%）。

消融实验（后训练方式对忠实度的影响）¶

变体	MiMo-7B RF / c(M)	Olmo-3-7B RF / c(M)
Base	59.33 / 0.69	65.87 / 0.42
SFT-only	60.05 / 0.74	61.38 / 0.70
RL-only	58.74 / 0.54	—
SFT+RL	46.32 / 0.72	50.93 / 0.73

在两个模型家族中，SFT 基本保持 RF，但在 SFT 之上添加 RLVR 一致性地降低 RF（MiMo: 60.05→46.32，Olmo: 61.38→50.93）。

关键发现¶

不忠实度主要来源：立场不一致（χ 失败）是主因。干预后的不一致（¬χ(o')）最突出，基线不一致（¬χ(o)）较少，因果失败（¬κ）为次要因素
任务差异显著：收敛型任务（代码 24.18%、数学 28.06%）忠实度最低，论证型任务（法律 70.17%、逻辑 58.28%）更高——因为收敛型任务中局部错误必须被修正，导致"静默纠正"
规模≠忠实度：gpt-oss 系列从 20B 到 120B 反而 RF 下降（32.11→27.50），Qwen 从 8B 到 32B 则上升（41.95→73.29），说明规模不是决定因素
准确率≠忠实度：控制模型和任务效应后，准确率-忠实度的残差关联统计不显著（Weighted Pearson r = 0.090, p ≈ 0.445）
RLVR 奖励不区分一致与不一致：χ=1 和 χ=0 的输出获得几乎相同的平均奖励（0.628 vs 0.671），说明现有 RL 目标可能推动模型产生"准确但不忠实的推理壳"

亮点与洞察¶

将推理忠实度分解为"立场一致性"和"因果影响"两个可测试条件，是目前最严格的行为层面形式化
输出层反事实干预的设计非常巧妙——直接在推理轨迹中注入缺陷，比输入层扰动更直接地测试推理的因果地位
"RL 后训练降低忠实度"是一个重要的警示信号：当前 RLVR 仅奖励最终格式和正确性，不鼓励立场一致性
"准确率不是忠实度的可靠代理"的论证兼具理论和实证支撑，对 LRM 评估体系有深远影响
对比覆盖率 c(M) 的引入解决了反事实评估中的选择偏差问题

局限性 / 可改进方向¶

对闭源模型的评估受限于响应完整性机制（签名验证等），目前仅评估开源模型
立场提取依赖强 LLM（o3），本身可能引入偏差
反事实推理 r' 的质量取决于 o3 的生成能力，可能在某些极端情况下不够微妙
论文评审任务的对比覆盖率很低（~0.35–0.45），限制了该任务上的结论可靠性
未提供改善忠实度的具体训练方法，仅揭示了问题和相关因素

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为 LRM 的推理忠实度提出形式化定义和系统化评估框架
实验充分度: ⭐⭐⭐⭐⭐ 12 个模型 × 7 个任务 × 7186 实例，含 within-family 消融和统计检验
写作质量: ⭐⭐⭐⭐⭐ 形式化定义严谨，实证分析层次清晰，图表设计精良
价值: ⭐⭐⭐⭐⭐ 揭示了 LRM 评估中被忽视的核心维度，对安全可信 AI 的研究方向有重要指引

研究背景与动机¶

大推理模型产生看似合理但不忠实的推理——准确率不能代表忠实度

方法详解¶

立场一致性：推理链内部连贯
因果影响：推理因果决定答案（反事实验证）
RFEval：输出级干预

实验关键数据¶

发现	值
不忠实率	49.7%
集中在	数学/代码（脆弱域）
RL后训练	降低忠实度（尽管精度不变）

关键发现¶

后训练模式（SFT vs RL）比模型规模更影响忠实度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 推理忠实度形式化
实验充分度: ⭐⭐⭐⭐⭐ 7任务/7186实例
价值: ⭐⭐⭐⭐⭐ 揭示RL训练的隐患

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（12 个 LRM 的忠实度评估）¶

消融实验（后训练方式对忠实度的影响）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

研究背景与动机¶

方法详解¶

实验关键数据¶

关键发现¶

评分¶