C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning¶
日期: 2026-03-05
arXiv: 2603.05167
代码: 无
领域: LLM推理
关键词: CoT faithfulness, LLM judge, causal reasoning, coverage evaluation, process supervision
一句话总结¶
C2-Faith 基准通过受控因果扰动和覆盖度删除评估 LLM 评判器,揭示了二元检测(82.7-94.7%)与步级定位(55.8-68%)之间 >25% 的性能差距,且覆盖度评分系统性过度乐观。
研究背景与动机¶
- 领域现状:LLM 越来越多地被用作 CoT 推理的评判器(如训练过程奖励模型 PRM),但其判断的忠诚度评估不足。
- 现有痛点:(1) 因果性(每步逻辑有效性)和覆盖度(关键推理完整性)两个维度被忽视;(2) 缺乏带地面真值的受控评估——现有基准用自然错误,难以隔离特定能力。
- 核心矛盾:能检测到"有问题" ≠ 能定位"哪一步有问题",能给"高分" ≠ 真正理解了推理过程。
- 切入角度:通过受控扰动生成带精确标注的评估集——因果扰动(替换中间步骤)和覆盖度扰动(删除步骤),分别评估检测、定位和评分能力。
方法详解¶
整体框架¶
三个评估实验:(1) 二元因果检测——判断目标步骤是否逻辑跟随前序步骤;(2) 因果步定位——在完整推理链中找出扰动步骤的位置;(3) 覆盖度评分——评估删除部分步骤后推理链的可监控性。
关键设计¶
-
因果扰动生成:
- 从完美推理链中替换一个中间步骤为不可因果推导的变体
- LLM 生成变体时保留数学风格(避免形式线索泄露位置)
- 目标位置:链长的 30%-90%,450 个参考链
-
覆盖度扰动:
- 均匀删除 \(d \in \{0.1, 0.3, 0.5, 0.7\}\) 比例的中间步骤
- 保留步骤顺序确保表面连贯性
- 参考标签 0-4 等级由 GPT-4.1 生成
-
评估指标设计:
- 检测:输出 0 的比例
- 定位:精确匹配(exact match)、MAE、Within-k 准确度
- 覆盖度:Spearman ρ + 偏差分析
实验关键数据¶
二元因果检测¶
| LLM 评判器 | 检测率 |
|---|---|
| DeepSeek-V3.1 | 94.7% |
| o4-mini | 92.0% |
| GPT-4.1 | 82.7% |
因果步定位¶
| LLM 评判器 | 精确匹配 | 检测率 | MAE |
|---|---|---|---|
| o4-mini | 68.0% | 94.2% | 1.51 |
| DeepSeek-V3.1 | 55.8% | 88.4% | 1.45 |
| GPT-4.1 | 57.6% | 89.3% | 1.84 |
覆盖度评分(删除 70% 步骤时)¶
| 模型 | 覆盖评分 | vs 参考偏差 | Spearman ρ |
|---|---|---|---|
| 所有模型 | ~3.0/5 | +1.22 | -0.006 ~ 0.331 |
关键发现¶
- 检测 vs 定位差距 >25%:能判断"链中有错"但难以精确定位"第几步错"
- 覆盖度评估系统过度乐观:即使删除 70% 步骤,评分仍给 3.0/5
- 不同 LLM 排名随任务变化:DeepSeek 检测最强,o4-mini 定位最准
- 因果检测相对可靠,但精细能力(定位+覆盖度)仍有巨大提升空间
亮点与洞察¶
- 受控扰动方法论:通过精确注入已知错误生成评估集,避免了自然错误的不可控性
- 揭示能力细粒度差异:检测 ≠ 定位 ≠ 评分,三个看似相关的能力实际表现迥异
- 对 PRM 训练的警示:如果 LLM 评判器的覆盖度评分系统性偏高,用其标注的 PRM 训练数据也会有偏
局限性 / 可改进方向¶
- 仅 450 个推理链,样本量偏小
- 仅在数学推理(PRM800K)上评估,其他推理类型待验证
- 只评估了 3 个评判器
- 扰动生成质量依赖 LLM,可能引入系统偏差
评分¶
- 新颖性: ⭐⭐⭐⭐ 受控扰动评估因果/覆盖度忠诚度,方法论有创新
- 实验充分度: ⭐⭐⭐ 统计方法严谨(McNemar+Bonferroni)但规模偏小
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,实验设计有层次
- 价值: ⭐⭐⭐⭐ 对 LLM-as-Judge 和 PRM 研究有诊断价值