C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning¶

日期: 2026-03-05
arXiv: 2603.05167
代码: 无
领域: LLM推理
关键词: CoT faithfulness, LLM judge, causal reasoning, coverage evaluation, process supervision

一句话总结¶

C2-Faith 基准通过受控因果扰动和覆盖度删除评估 LLM 评判器，揭示了二元检测（82.7-94.7%）与步级定位（55.8-68%）之间 >25% 的性能差距，且覆盖度评分系统性过度乐观。

领域现状：LLM 越来越多地被用作 CoT 推理的评判器（如训练过程奖励模型 PRM），但其判断的忠诚度评估不足。
现有痛点：(1) 因果性（每步逻辑有效性）和覆盖度（关键推理完整性）两个维度被忽视；(2) 缺乏带地面真值的受控评估——现有基准用自然错误，难以隔离特定能力。
核心矛盾：能检测到"有问题" ≠ 能定位"哪一步有问题"，能给"高分" ≠ 真正理解了推理过程。
切入角度：通过受控扰动生成带精确标注的评估集——因果扰动（替换中间步骤）和覆盖度扰动（删除步骤），分别评估检测、定位和评分能力。

三个评估实验：(1) 二元因果检测——判断目标步骤是否逻辑跟随前序步骤；(2) 因果步定位——在完整推理链中找出扰动步骤的位置；(3) 覆盖度评分——评估删除部分步骤后推理链的可监控性。

因果扰动生成：
- 从完美推理链中替换一个中间步骤为不可因果推导的变体
- LLM 生成变体时保留数学风格（避免形式线索泄露位置）
- 目标位置：链长的 30%-90%，450 个参考链
覆盖度扰动：
- 均匀删除 \(d \in \{0.1, 0.3, 0.5, 0.7\}\) 比例的中间步骤
- 保留步骤顺序确保表面连贯性
- 参考标签 0-4 等级由 GPT-4.1 生成
评估指标设计：
- 检测：输出 0 的比例
- 定位：精确匹配（exact match）、MAE、Within-k 准确度
- 覆盖度：Spearman ρ + 偏差分析

LLM 评判器	精确匹配	检测率	MAE
o4-mini	68.0%	94.2%	1.51
DeepSeek-V3.1	55.8%	88.4%	1.45
GPT-4.1	57.6%	89.3%	1.84

模型	覆盖评分	vs 参考偏差	Spearman ρ
所有模型	~3.0/5	+1.22	-0.006 ~ 0.331