Unlocking Recursive Thinking of LLMs: Alignment via Refinement¶
会议: ACL2025 arXiv: 2506.06009 代码: Banner-Z/AvR 领域: llm_nlp 关键词: 递归思维, 对齐, 细化, 长链思维, 测试时缩放, DPO
一句话总结¶
提出 AvR(Alignment via Refinement)两阶段框架,通过细化感知奖励(refinement-aware reward)和差分学习,让 LLM 学会"批评→改进"的递归思维能力,仅用 10k 数据即在 AlpacaEval 2 上将 LLaMA-3-8B-Instruct 的胜率提升超 26 个百分点。
背景与动机¶
- 长链思维推动测试时缩放:OpenAI o1 系列证明 long-form CoT 能大幅提升复杂任务表现,但现有 LLM 大多缺乏自主多轮修正能力,难以在推理时迭代优化输出。
- 传统对齐忽视过程信号:DPO/RLHF 等方法仅对最终输出给予偏好奖励,缺少对反思、细化等中间过程的监督,导致模型无法从"哪里改进了"中学习。
- 自我纠错困难:已有研究表明 LLM 在缺乏外部奖励函数时很难纠正自身错误,直接提示模型 refine 反而可能降低质量(基线 LLaMA-3 refine 后胜率下降 2.6%)。
- o1-like 方法成本高:基于 MCTS 或大规模 RL 的方法需要强力骨干模型、海量采样和巨大训练开销,在资源受限场景下不现实。
- 并行采样的冗余:传统偏好优化因无法区分生成质量差异,并行采样时容易重复同类错误。
- 差分学习的启发:Sutton 的差分学习思想表明,通过优化前后状态的奖励差值可更有效指导决策改进,天然适配"越改越好"的细化场景。
方法详解¶
整体框架¶
- 做什么:两阶段训练框架——Stage I 学习单步细化(多轮交互式),Stage II 将递归思维内化为自主长链 CoT。
- 为什么:Stage I 先让模型掌握"批评→改进"的基本范式,Stage II 再通过轨迹蒸馏让模型无需外部提示即可自主递归推理,实现测试时缩放。
- 怎么做:
- 将 query 和每轮 response 建模为多步 MDP,定义状态转移为上文拼接;
- 引入细化感知奖励 R(s_{t+1}, s_t),要求每步改量为正且优于初始响应;
- 通过拒绝采样丢弃不满足条件的轨迹。
关键设计 1:Stage I — 单步细化优化¶
- 做什么:构建细化树(refinement tree),对每个 query 的初始和细化响应用 Bradley-Terry 奖励模型打分,得到批评/改进配对数据。
- 为什么:让模型学会"每次改得更好"而非仅学好/坏偏好;通过 DPO 最大化细化前后的奖励差值,比传统 DPO 更精准。
- 怎么做:
- 先用 Qwen2.5-32B 作为 corrector 为 LLaMA-3-8B 的初始输出生成批评和改进;
- RSFT:从细化树中选奖励最高的改进轨迹做监督微调(10k 样本);
- DPO:分别对"生成""批评""改进"三类行为构造偏好对——生成步用最佳改进 vs 原始输出;批评步和改进步各自选分数最高/最低的一对。
关键设计 2:Stage II — 多步递归思维¶
- 做什么:用 Stage I 模型自动合成递归 CoT 轨迹,训练模型自主完成"生成→批评→改进→再批评→再改进→结束"全流程。
- 为什么:Stage I 仍需显式 prompt 驱动每轮细化;Stage II 实现内化的递归思维,消除对外部指令和逐步监督的依赖。
- 怎么做:
- 贪心搜索:每轮生成 x 条批评 × y 条改进(实验中 step=2),用 BT 模型选最优;
- 当没有任何改进优于当前最佳时停止,拼接为完整递归推理轨迹;
- RSFT 训练模型生成此类轨迹,模型在推理时使用
<think>标记包裹中间步骤; - 长度控制 DPO:采样 5 条输出,取分最高且更短的 vs 分最低且更长的做 DPO(4k 对),缓解奖励模型的长度偏好。
实验关键数据¶
实验 1:AlpacaEval 2 主实验¶
| 方法 | 数据量 | Win Rate | LC Win Rate |
|---|---|---|---|
| LLaMA-3-8B-Instruct (Seed) | - | 25.0% | 25.0% |
| DPO (传统) | 60k | 37.9% | 40.3% |
| SimPO | 60k | 40.5% | 44.7% |
| Meta-Rewarding Iter 4 | 20k | 39.5% | 39.4% |
| AvR Stage I DPO + refine r2 | 20k | 50.8% | 35.5% |
| AvR Stage II RSFT | 10k | 51.0% | 42.5% |
| AvR Stage II + 长度控制 | 14k | 49.0% | 51.4% |
发现:AvR 仅用 10k-14k 数据超过需要 60k 数据的 SimPO 和 DPO;加入长度控制后 LC Win Rate 达到最高 51.4%,比 Seed 提升 26.4 个百分点。
实验 2:Arena-Hard v0.1¶
| 方法 | Score | 95% CI |
|---|---|---|
| GPT-3.5-turbo | 23.3% | (-2.2, 1.9) |
| GPT-4-0613 | 37.9% | (-2.8, 2.4) |
| SimPO | 33.8% | - |
| Meta-Rewarding Iter 4 | 29.1% | (-2.3, 2.1) |
| AvR Stage II | 34.5% | (-2.5, 2.3) |
发现:AvR Stage II 在 Arena-Hard 上超过 GPT-3.5-Turbo,以及所有基于 LLaMA-3-8B 的基线方法,且仅用 10k SFT 数据。
实验 3:跨模型细化能力¶
AvR Stage I 模型可用于细化 GPT-4o 和 GPT-4o-mini 的输出,显著提升两者在 AlpacaEval 2 上的得分,说明习得的细化能力具有跨模型迁移性。
亮点¶
- 数据效率极高:仅 3k 样本即可带来 20% 胜率提升,完整流程仅需 10k-14k 数据,远低于传统 RL 方法的 60k。
- 思路新颖:将"差分学习"引入对齐训练,定义细化感知奖励实现"每步都进步"的递归思维。
- 两阶段设计优雅:Stage I 外部驱动学基础能力,Stage II 内化为自主 CoT,渐进式地解锁递归推理。
- 跨模型迁移:Stage I 训练的 8B 模型能改善 GPT-4o 的输出,展示细化能力作为通用技能的价值。
局限性 / 可改进方向¶
- 依赖外部奖励模型:整个流程强依赖 BT 奖励模型(27B Skywork-Reward),其偏差(如长度偏好)直接影响数据合成质量。
- 仅评估开放式生成:AlpacaEval 和 Arena-Hard 偏重对话质量,缺少数学/代码等结构化推理任务的验证。
- Stage I 需要强模型引导:初始阶段使用 Qwen2.5-32B 生成批评和改进数据,无法完全自举。
- 长度控制仍有损失:长度控制 DPO 虽提升 LC Win Rate,但 Win Rate 下降 2%,两者的权衡尚需进一步研究。
与相关工作的对比¶
vs SCoRe (Kumar et al., 2024)¶
SCoRe 是在线 RL 方法,需要在数学/代码基准上大量在线采样和训练来提升自我纠正能力。AvR 通过离线合成细化数据 + DPO 实现类似效果,训练成本显著更低,且面向开放式生成而非仅推理任务。
vs Meta-Rewarding LLM (Wu et al., 2024)¶
Meta-Rewarding 需要 4 轮迭代训练(累计 20k 数据)才达到 39.5% 胜率。AvR 单次 Stage II 训练用 10k 数据即达 51.0% 胜率,核心区别在于 AvR 优化"改进过程"而非仅搜索更好响应。
vs DeepSeek-R1 / o1-like 方法¶
o1-like 方法依赖大规模 RL + 强骨干模型(如 70B+),成本极高。AvR 在 8B 模型上用少量数据达到可比的递归思维效果,提供了一条低成本路径。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 细化感知奖励和两阶段递归思维框架是有意义的新思路
- 实验充分度: ⭐⭐⭐ — AlpacaEval 和 Arena-Hard 结果扎实但缺少推理类任务验证
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,公式推导完整,图表直观
- 价值: ⭐⭐⭐⭐ — 为小模型低成本获得递归推理能力提供了实用方案