Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points¶

会议: ACL 2025
arXiv: 2502.11475
代码: 无
领域: LLM对齐 / 代码生成
关键词: DPO, 代码生成, 错误集中点, PageRank, 偏好优化加权

一句话总结¶

发现代码生成错误集中在特定"错误易发点"（error-prone points）——前缀/后缀通常正确，错误集中在中间代码段，提出 Focused-DPO 通过 PageRank 排序定位关键代码段并在 DPO 损失中加权放大，HumanEval+ 提升 4.41%、MBPP+ 提升 6.71%。

领域现状：DPO 等偏好优化方法已成功用于代码生成的对齐，但将所有 token 等权对待。
现有痛点：代码中不同部分对正确性的贡献极不均匀——函数签名、import 语句几乎总是正确的，真正的错误集中在算法逻辑的核心区域。标准 DPO 将大量梯度信号浪费在已经正确的 token 上。
核心矛盾：错误易发点的正确性与整体正确性高度相关（Phi 系数 0.57-0.61），但标准 DPO 无法区分不同位置的重要性。
本文要解决什么：如何自动定位代码中的错误易发点，并在偏好优化中聚焦于此？
切入角度：用公共前缀/后缀去掉代码两端不变部分→用 PageRank 在代码-测试二部图上排序定位关键段→加权 DPO。
核心 idea：错误集中在中间段→定位→加权放大 DPO 损失。

三阶段：(1) 从真实代码仓库合成偏好数据；(2) PageRank + 公共前缀/后缀匹配定位错误易发点；(3) 加权 DPO 训练。

Benchmark	Qwen2.5-7B Baseline	+Focused-DPO	提升
HumanEval	91.5%	92.7%	+1.29%
HumanEval+	84.1%	87.8%	+4.41%
MBPP	82.8%	84.7%	+2.24%
MBPP+	71.4%	76.2%	+6.71%

更严格的 benchmark 提升更大：HumanEval+ (+4.41%) > HumanEval (+1.29%)；MBPP+ (+6.71%) > MBPP (+2.24%)——说明方法真正改善了代码正确性而非表面匹配
5000 训练样本即可有效：数据效率很高
对已经过 SFT/DPO 的强模型仍有效：能在 Qwen2.5-Coder 上进一步提升