Probability-Consistent Preference Optimization for Enhanced LLM Reasoning¶

会议: ACL 2025
arXiv: 2505.23540
代码: https://github.com/YunqiaoYang/PCPO (有)
领域: LLM对齐 / 推理
关键词: 偏好优化, Token概率一致性, DPO, 数学推理, Levenshtein距离

一句话总结¶

提出 PCPO（Probability-Consistent Preference Optimization），在偏好对选择时同时考虑答案正确性和 token 级概率一致性（用 Levenshtein 距离过滤+概率一致性评分），并在 DPO 损失中按一致性加权，在 GSM8K/MATH-500/Olympiadbench 上一致超越标准 DPO 和 ScPO。

研究背景与动机¶

领域现状：偏好优化（DPO/RLHF）已广泛用于 LLM 对齐。在数学推理中，常用方法是从模型采样多个回答，正确的做 chosen、错误的做 rejected。
现有痛点：仅看最终答案选偏好对忽略了推理过程的质量——两个都错的回答，推理链质量可能天差地别；两个表面相似的回答（Levenshtein 距离小），其 token 概率分布可能揭示模型对推理步骤的内在不确定性。
核心矛盾：答案正确 ≠ 推理可靠。模型可能通过"碰运气"得到正确答案但推理链不一致。
本文要解决什么：如何选择更高质量的偏好对，并在训练中利用概率信息？
切入角度：用 token 级概率一致性度量推理链的"内在逻辑连贯性"。
核心 idea：Levenshtein 距离过滤→token 概率一致性评分→加权 DPO 损失。

方法详解¶

关键设计¶

Levenshtein 距离过滤：过滤掉表面差异太小的偏好对（难以区分的对）
Token 概率一致性评分：
对每个 token 计算 \(c_t = p(t) \cdot \mathbb{1}[t = \arg\max]\)
聚合为 pair-weighted score \(s_w\)
概率一致性高 = 模型对每步推理都很"确信"且一致
加权 DPO 损失：按概率一致性评分给偏好对加权，一致性更高的对获得更大梯度

实验关键数据¶

主实验（Llama-3-8B）¶

方法	GSM8K	MATH-500	Olympiadbench	AMC23
IRPO	81.1	30.6	6.7	0
ScPO	81.6	32.2	7.9	5.0
PCPO	82.8	33.2	9.5	10.0

关键发现¶

极难任务提升最大：AMC23 从 0/5.0→10.0，说明概率一致性在候选质量都不高时更能区分
概率一致性比 PRM 更有效区分表面相似的回答
可泛化到 RPO、IPO、ORPO、TDPO 等多种偏好优化变体
计算开销增加约 15% GPU hours（概率计算）

亮点与洞察¶

Token 概率一致性捕捉"推理信心"：这是比答案正确性更深层的信号
Levenshtein 距离做粗筛：简单有效地过滤低质量偏好对

局限性 / 可改进方向¶

需要标准答案做偏好选择
额外 15% 计算开销
仅在数学推理上验证

评分¶

新颖性: ⭐⭐⭐⭐ Token概率一致性作为偏好质量信号很新
实验充分度: ⭐⭐⭐⭐ 多模型多benchmark+泛化到多种PO变体
写作质量: ⭐⭐⭐⭐ 方法阐述清晰
价值: ⭐⭐⭐⭐ 对偏好优化实践有直接指导