GASP: Guided Asymmetric Self-Play For Coding LLMs¶

会议: ICLR 2026
arXiv: 2603.15957
代码: 无
领域: LLM训练/代码推理
关键词: 非对称自博弈, 代码生成, 课程学习, RLVR, 目标引导

一句话总结¶

提出GASP框架，在非对称自博弈中引入"goalpost"（硬目标题）引导教师生成有针对性的训练问题，通过lemma（简化变体）→lift（加难变体）的课程结构逐步逼近困难目标，在LiveCodeBench上超越无引导自博弈2.5%且解决了所有baseline无法解决的难题。

领域现状：非对称自博弈（如Absolute Zero/AZR）让LLM同时扮演教师（出题）和学生（解题），实现无人工数据的开放式训练。RLVR通过可验证奖励训练代码/数学推理能力。

现有痛点：现有自博弈是目标无关的——教师只关注学生的可学习性（题目不能太简单也不能太难），但不关注生成的题目是否"有趣"或"对下游任务有帮助"。结果是：很多在学习边界的难题对提升模型实际编程能力并不重要。

核心矛盾：自博弈需要探索困难问题来推进能力边界，但无引导的探索效率低——很多"难"题是人为构造的无意义难题，不代表真实编程挑战。

本文目标：(1) 能否用真实世界的难题引导自博弈？(2) 这种引导是否能提升下游编程能力？

切入角度：从训练集中筛选出RLVR训练后仍无法解决的硬题作为"goalpost"，教师被引导生成这些goalpost的简化版（lemma），再从lemma出发生成加难版（lift），形成逐步逼近的课程。

核心 idea：用真实难题做goalpost引导自博弈教师，通过lemma-lift踏脚石课程逐步突破能力边界。

三阶段循环训练：Phase 1 (Lemma生成) → Phase 2 (Lift生成) → Phase 3 (Solver训练)。教师和学生共享参数，通过角色提示区分。146个goalpost硬题（从601题中筛选，pass@100=0）作为引导信号。

Goalpost筛选流水线:
- 功能：多阶段过滤找到真正的硬题——标准RLVR训练所有检查点、AZR检查点、额外RL运行后仍pass@100=0的题
- 核心思路：三重过滤确保goalpost确实在模型当前能力范围之外
- 设计动机：goalpost必须是"genuinely hard"——已知困难且与真实编程挑战相关
Lemma生成（简化变体）:
- 功能：给定goalpost \(h\)，教师生成更简单的变体 \(\ell_0\)，保留高层算法主题
- 核心思路：奖励函数 \(r_{\text{lemma}} = [4p(1-p)]^5\)（当 \(0.3 \leq p \leq 0.7\) 时），峰值在 \(p=0.5\)，鼓励中等难度
- 设计动机：lemma在学生可学习范围内但仍有挑战性，且与goalpost主题相关
Lift生成（加难变体）:
- 功能：从lemma \(\ell_0\) 出发生成更难的变体 \(\ell_1\)，但不看原始goalpost
- 核心思路：奖励 \(r_{\text{lift}} = 10p(\frac{1-p}{0.9})^9\)（\(0.1 \leq p \leq 0.5\)），峰值在 \(p=0.1\)，鼓励更难的题
- 设计动机：不让教师看到goalpost是刻意设计——避免简单复制表面特征，鼓励从学生当前边界递增式增加难度
难度轴:
- I/O轴：改变输入输出的复杂度（如一个列表→嵌套列表）
- f轴：改变算法复杂度（如增加约束或组合操作）
- 每次lemma随机选一个轴，lift沿同一轴增加难度

LiveCodeBench v5 (Qwen2.5-Coder-7B)：

方法	pass@1	pass@20	说明
Base model	基线	基线	未训练
RLVR (真实数据)	好	好	上界参考
AZR (无引导自博弈)	中	中	无goalpost
GASP	好	AZR+2.5%	有goalpost引导

目标引导自博弈：在完全无监督的自博弈中引入外部"目标"信号，让教师的创造力有方向感。类似于RL中的goal-conditioned learning思想。
Lemma-Lift踏脚石：不直接攻克难题，而是通过简化→逐步加难的课程逼近。这种curriculum设计思路可推广到其他领域的难题攻克。
"不给lift看goalpost"的巧妙设计：强制教师从学生当前能力递增式增难，而非跳跃式复制目标，更符合学习的渐进性。