Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning¶

问题定义: 传统单元测试生成方法依赖于ground-truth代码标注，收集成本高且可扩展性差
关键洞察: 单元测试不一定需要完整的代码解决方案即可生成，可以从失败案例中学习
研究机会: 让单元测试生成器和代码生成器相互监督，无需访问ground-truth代码
动机意义: 这种共同进化方式既能提升代码生成精度，也能改进单元测试生成质量

会议: NeurIPS 2025
arXiv: 2506.03136
代码: GitHub
领域: LLM推理与代码生成
关键词: 自演化, RL, 单元测试生成, 代码生成, 无监督

一句话总结¶

提出CURE框架，通过单元测试生成器与代码生成器的相互监督和共同进化，在无需ground-truth代码的情况下显著提升LLM代码生成能力。

CURE框架基于自博弈RL，利用生成代码与生成测试的交互创建成对奖励矩阵。核心思想是：

理论推导的奖励设计: 通过分析奖励精度（能否正确区分正确代码与错误代码），推导出个体单元测试的奖励函数：R_uk = -∑(1-I_sl)·B_l,k + (∏I_sl·B_l,k)·(∑(1-I_sl))
共同进化对象函数: 采用PPO/GRPO框架，分离优化代码和测试：
代码奖励：R_sj = ∑l B（通过ground-truth测试的个数）
测试奖励：基于上述微调的μ参数
长CoT模型优化: 对于长链的推理模型，引入响应长度引导的奖励变换，防止过度生成

模型	LiveBench UT/Code/BoN	MBPP UT/Code/BoN	LiveCodeBench UT/Code/BoN	CodeContests UT/Code/BoN
Qwen2.5-14B-Coder	39.0/42.2/53.1	75.1/72.6/84.9	41.6/38.2/47.7	37.3/23.3/32.0
ReasonFlux-14B	73.3/47.5/60.2	91.6/78.5/88.2	81.4/40.5/50.5	86.0/32.1/44.4
Qwen2.5-7B-Coder	19.3/35.0/42.9	41.3/68.0/79.6	20.6/29.8/34.8	12.9/22.8/23.8
ReasonFlux-7B	54.8/37.1/51.6	79.4/70.2/84.6	57.7/31.2/42.7	62.6/25.9/34.1
Qwen3-4B (Long)	36.8/72.5/78.1	76.5/88.4/90.1	50.9/74.5/80.0	43.6/53.0/58.3
ReasonFlux-4B	84.6/74.6/82.0	83.3/89.5/91.1	86.8/74.9/80.6	72.2/54.6/59.9

⭐⭐⭐⭐⭐