On Learning Verifiers and Implications to Chain-of-Thought Reasoning¶

会议: NeurIPS 2025
arXiv: 2505.22650
代码: 无
领域: LLM推理验证与理论学习
关键词: PAC学习, 验证器, CoT推理, 可验证性, 样本复杂度

一句话总结¶

从PAC学习角度系统研究CoT验证器的可学习性，在不同验证目标下给出样本复杂度的上下界，并揭示验证与生成之间的有趣计算关系。

论文提出三种递进式的验证概念：

定理3.1-3.3: SVPAC可学习性与VC维 - 有限验证类：样本复杂度 O(log|H|/ε) - 有限VC维：样本复杂度 O(VCDim(H)logT/ε) - T为最大推理长度

定理4.4-4.5: TVPAC可学习性
- 有限验证类：O(log|H|/ε) - 有限VC维：O(VCDim(H)·log(kT|Σ|)/ε)
- k为每问题的正确推理数量

定理4.9-4.11: γ-TVPAC的线性下界 - 当访问有限正确示例时，需要Ω(|H|)样本 - 即使进行非参监督学习，完备性要求也导致不可避免的线性依赖

验证目标	训练数据格式	学习算法	VC样本复杂度上界
SVPAC	随机序列+标签	ERM	O(VCDim logT)
TVPAC	黄金标准集合	ERM	O(VCDim·log(kT\|Σ\|))
γ-TVPAC	随机正确序列	算法1(交集)	Ω(\|H\|)下界

研究维度	主要发现
生成vs验证等价性	k=1时，TVPAC验证等价于CoT生成（
计算分离	USAT问题上存在高效验证但生成困难的例子
可靠性要求	soundness+completeness导致线性样本复杂度
分布鲁棒性	TVPAC相比SVPAC提供更强的分布外保证

⭐⭐⭐⭐⭐