QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization¶

会议: ACL 2026
arXiv: 2604.05963
代码: GitHub
领域: 代码智能 / 程序修复
关键词: 精确代码修复, 过度编辑, 编辑感知奖励, GRPO, 推测编辑

一句话总结¶

本文识别了 LLM 代码修复中的"过度编辑"问题——模型倾向于重写大量代码而非精确定位和修复 bug，提出 PRepair 框架，通过 Self-Breaking（多样化 bug 注入）和 Self-Repairing（编辑感知 GRPO 训练），显著提升修复精确度同时保持正确性，并加速推测解码推理。

研究背景与动机¶

领域现状：LLM 在程序修复中表现优异，现有训练方法（SFT 和 RL）通常仅优化修复正确性，将代码修复视为纯正确性目标。

现有痛点：(1) 模型在 GRPO 训练中随着正确性提升，编辑代价也不断增加——模型不是学会了精确修复而是通过大量修改"碰对"正确解；(2) 过度编辑破坏了原始代码结构，增加开发者审查负担；(3) 过度编辑无法定位 bug，限制了修复的实际有效性和可维护性。

核心矛盾：修复正确性和编辑最小性之间存在张力——仅优化正确性会导致模型走"重写"捷径而非学会理解和精确定位 bug。

本文目标：设计一种精确修复（Precise Repair）框架，在保持修复正确性的同时最大化对原始代码的复用。

切入角度：观察到 GRPO 训练中编辑代价与正确性同步增长（Figure 2），表明需要在奖励中显式引入编辑约束。

核心 idea：编辑感知的 GRPO（EA-GRPO）——仅当组级准确率超过阈值时才对正确样本施加编辑惩罚，平衡正确性和编辑最小性。

方法详解¶

整体框架¶

PRepair 分两阶段：(1) Self-Breaking——让模型自己向正确代码注入多样化 bug，通过 min-max 采样策略最大化 bug 多样性；(2) Self-Repairing——在生成的 bug 代码上用 EA-GRPO 训练模型，编辑感知奖励动态平衡正确性和编辑代价。评估使用新提出的 \(\text{fix}_p@k\) 指标。

关键设计¶

\(\text{fix}_p@k\) 精确修复指标:
- 功能：联合评估修复正确性和编辑程度
- 核心思路：在 pass@k 的基础上增加编辑约束——只有当生成代码通过所有测试且编辑代价不超过理论最小编辑的 p 倍时才算成功。编辑代价 \(\mathbf{D}_{\text{EC}}(X,Y) = \mathbf{D}(X,Y)/|X|\) 用行级 Levenshtein 距离归一化
- 设计动机：pass@k 只看正确性，无法反映修复质量——重写全部代码也可能通过测试，但不是好的修复
Self-Breaking（多样化 bug 注入）:
- 功能：无需人工标注即可生成大规模精确修复训练数据
- 核心思路：给模型正确代码和描述，提示它注入 bug。从 m 个候选中通过 min-max 采样选 k 个最多样的：\(\mathcal{X}_s = \min_{\mathcal{X}' \subset \mathcal{X}, |\mathcal{X}'|=k} \max_{X_i,X_j \in \mathcal{X}', i \neq j} (1 - \mathbf{D}_{\text{EC}}(X_i, X_j))\)
- 设计动机：精确修复需要含大量正确逻辑且仅有局部错误的训练数据，这种数据在现实中极度稀缺。Min-max 采样避免了 bug 模式过度集中
EA-GRPO（编辑感知组相对策略优化）:
- 功能：在 RL 训练中鼓励最小且正确的修复
- 核心思路：对每个 rollout 组计算准确率 \(\text{Acc}_{\mathcal{G}^t}\)，仅当超过阈值 \(\alpha\) 时才激活编辑惩罚。对组内正确样本计算标准化编辑惩罚 \(\mathcal{P}_i^{\mathcal{G}} = \sigma(\frac{\mathbf{D}_{\text{EC}}(X_t, o_i) - \text{mean}}{\text{std}})\)。最终奖励：\(\mathcal{R}_i = 1 - \mathcal{T}(\mathcal{G}) \cdot \beta \cdot \mathcal{P}_i^{\mathcal{G}}\)（正确时）或 0（错误时）
- 设计动机：过早惩罚编辑会损害正确性学习——只有当组级正确性足够高时才引入编辑约束，实现"先学对再学精"

损失函数 / 训练策略¶

EA-GRPO 使用 PPO 风格的截断目标 + KL 正则化。奖励计算不需要金标准代码，仅用 bug 输入和生成输出的编辑代价。在 Python（HumanEvalFix）和 Verilog（自建基准）上评估。

实验关键数据¶

主实验¶

精确修复指标对比

指标	说明
\(\text{fix}_1@1\) 提升	最高 +31.4%
pass@k 保持/提升	正确性不下降
跨语言有效	Python 和 Verilog 都有效

消融实验¶

EA-GRPO vs 标准 GRPO

配置	说明
标准 GRPO	正确性提升但编辑代价持续增长
EA-GRPO	正确性提升且编辑代价受控
推测编辑加速	编辑代价降低→推测解码接受率提高→推理加速

关键发现¶

PRepair 在 \(\text{fix}_1@1\) 上最高提升 31.4%，同时 pass@k 保持或提升
EA-GRPO 的动态激活设计至关重要——过早惩罚编辑会显著损害正确性
Self-Breaking 的 min-max 采样确保了训练 bug 的多样性，优于随机采样
模型学到了隐式的错误定位能力——精确修复迫使模型聚焦 bug 所在行
与推测编辑结合时，编辑代价降低直接转化为推理加速——实际价值显著

亮点与洞察¶

过度编辑问题的识别和量化是重要贡献——揭示了仅优化正确性的 RL 训练的系统性缺陷
EA-GRPO 的"先学对再学精"策略优雅——避免了正确性和精确性的硬冲突
与推测解码的天然协同——精确修复减少编辑→更多 n-gram 匹配→更高推理吞吐——将训练改进转化为推理加速

局限与展望¶

仅在 Python 和 Verilog 两种语言上评估，未覆盖更多编程语言
\(\text{fix}_p@k\) 的阈值 p 的选择对评估结果影响较大
Self-Breaking 依赖模型自身的 bug 注入能力，可能不覆盖所有真实 bug 类型
编辑代价基于行级 Levenshtein 距离，可能无法捕获语义级别的编辑最小性

评分¶

新颖性: ⭐⭐⭐⭐ 过度编辑的识别和 EA-GRPO 的设计新颖且实用
实验充分度: ⭐⭐⭐⭐ Python + Verilog 跨语言 + 推测解码加速分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，指标设计合理
价值: ⭐⭐⭐⭐⭐ 对代码修复实践有直接影响，推测解码协同有部署价值