跳转至

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

日期: 2026-03-05
arXiv: 2603.05167
代码: 无
领域: LLM推理
关键词: CoT faithfulness, LLM judge, causal reasoning, coverage evaluation, process supervision

一句话总结

C2-Faith 基准通过受控因果扰动和覆盖度删除评估 LLM 评判器,揭示了二元检测(82.7-94.7%)与步级定位(55.8-68%)之间 >25% 的性能差距,且覆盖度评分系统性过度乐观。

研究背景与动机

  1. 领域现状:LLM 越来越多地被用作 CoT 推理的评判器(如训练过程奖励模型 PRM),但其判断的忠诚度评估不足。
  2. 现有痛点:(1) 因果性(每步逻辑有效性)和覆盖度(关键推理完整性)两个维度被忽视;(2) 缺乏带地面真值的受控评估——现有基准用自然错误,难以隔离特定能力。
  3. 核心矛盾:能检测到"有问题" ≠ 能定位"哪一步有问题",能给"高分" ≠ 真正理解了推理过程。
  4. 切入角度:通过受控扰动生成带精确标注的评估集——因果扰动(替换中间步骤)和覆盖度扰动(删除步骤),分别评估检测、定位和评分能力。

方法详解

整体框架

三个评估实验:(1) 二元因果检测——判断目标步骤是否逻辑跟随前序步骤;(2) 因果步定位——在完整推理链中找出扰动步骤的位置;(3) 覆盖度评分——评估删除部分步骤后推理链的可监控性。

关键设计

  1. 因果扰动生成

    • 从完美推理链中替换一个中间步骤为不可因果推导的变体
    • LLM 生成变体时保留数学风格(避免形式线索泄露位置)
    • 目标位置:链长的 30%-90%,450 个参考链
  2. 覆盖度扰动

    • 均匀删除 \(d \in \{0.1, 0.3, 0.5, 0.7\}\) 比例的中间步骤
    • 保留步骤顺序确保表面连贯性
    • 参考标签 0-4 等级由 GPT-4.1 生成
  3. 评估指标设计

    • 检测:输出 0 的比例
    • 定位:精确匹配(exact match)、MAE、Within-k 准确度
    • 覆盖度:Spearman ρ + 偏差分析

实验关键数据

二元因果检测

LLM 评判器 检测率
DeepSeek-V3.1 94.7%
o4-mini 92.0%
GPT-4.1 82.7%

因果步定位

LLM 评判器 精确匹配 检测率 MAE
o4-mini 68.0% 94.2% 1.51
DeepSeek-V3.1 55.8% 88.4% 1.45
GPT-4.1 57.6% 89.3% 1.84

覆盖度评分(删除 70% 步骤时)

模型 覆盖评分 vs 参考偏差 Spearman ρ
所有模型 ~3.0/5 +1.22 -0.006 ~ 0.331

关键发现

  • 检测 vs 定位差距 >25%:能判断"链中有错"但难以精确定位"第几步错"
  • 覆盖度评估系统过度乐观:即使删除 70% 步骤,评分仍给 3.0/5
  • 不同 LLM 排名随任务变化:DeepSeek 检测最强,o4-mini 定位最准
  • 因果检测相对可靠,但精细能力(定位+覆盖度)仍有巨大提升空间

亮点与洞察

  • 受控扰动方法论:通过精确注入已知错误生成评估集,避免了自然错误的不可控性
  • 揭示能力细粒度差异:检测 ≠ 定位 ≠ 评分,三个看似相关的能力实际表现迥异
  • 对 PRM 训练的警示:如果 LLM 评判器的覆盖度评分系统性偏高,用其标注的 PRM 训练数据也会有偏

局限性 / 可改进方向

  • 仅 450 个推理链,样本量偏小
  • 仅在数学推理(PRM800K)上评估,其他推理类型待验证
  • 只评估了 3 个评判器
  • 扰动生成质量依赖 LLM,可能引入系统偏差

评分

  • 新颖性: ⭐⭐⭐⭐ 受控扰动评估因果/覆盖度忠诚度,方法论有创新
  • 实验充分度: ⭐⭐⭐ 统计方法严谨(McNemar+Bonferroni)但规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,实验设计有层次
  • 价值: ⭐⭐⭐⭐ 对 LLM-as-Judge 和 PRM 研究有诊断价值