ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation¶
会议: NeurIPS 2025
arXiv: 2509.25100
代码: 未公开
领域: llm_alignment
关键词: 知识蒸馏, 偏好优化, ORPO, 混合策略, 跨架构蒸馏
一句话总结¶
提出 ORPO-Distill,将跨架构 LLM 知识蒸馏重新定义为偏好优化问题:使用教师模型生成正样本推理链、学生模型生成负样本推理链,通过 ORPO 对比损失训练,并引入混合策略(mixed-policy)更新学生负样本,在 5 个 QA 基准上一致超越黑盒 KD 基线。
研究背景与动机¶
LLM 知识蒸馏的两大范式:
- 白盒 KD:依赖教师 logits,要求师生共享词表/架构,限制灵活性
- 黑盒 KD:仅需教师生成序列,允许跨架构,但通常只用 CoT 蒸馏
现有黑盒 KD 的三个问题:
- 单一 CoT 蒸馏监督信号有限:只用一条教师推理链
- 缺少对比学习:未区分"好的推理路径"和"差的推理路径"
- 分布不匹配:训练时用教师序列,推理时学生自回归生成,分布存在 gap
本文的三个创新点:
- 用多样化推理链(diverse reasoning traces)替代单一 CoT
- 用 ORPO 偏好优化做对比蒸馏(教师正 + 学生负)
- 用混合策略更新(mixed-policy)解决分布不匹配问题
方法详解¶
整体框架¶
输入 prompt → 教师生成 K 条正推理链 → 学生生成 K 条负推理链 → 构建偏好数据集 \(\langle\)Prompt, Chosen, Rejected\(\rangle\) → ORPO 对比训练 → 混合策略更新负样本
ORPO 损失函数¶
ORPO(Odds Ratio Preference Optimization)将 SFT 和偏好对齐合并为单一目标:
其中 odds 函数定义为:
最终损失:
- \(\lambda = 0.1\):轻微偏好倾斜(如人类偏好对齐)
- \(\lambda = 1\):强适应(本文使用,裁剪学生的错误生成路径)
偏好数据集构建¶
关键发现:负样本来自学生模型优于来自教师模型
| 实验设置 | MedQA | ARC-C |
|---|---|---|
| (正-教师, 负-教师) | 41.72 | 45.87 |
| (正-教师, 负-学生) | 49.33 | 56.48 |
多样性采样: - 温度采样 \(\tau = 0.8\),生成 \(K\) 条推理链 - 教师和学生均使用 Reason-then-Answer 格式 - 拒绝采样:丢弃 ROUGE-L 重叠 > 0.80 的冗余链 - \(K \in \{4, 8, 12\}\) 实验表明 \(K=8\) 之后收益递减
混合策略更新¶
三种策略定义:
| 策略 | 参数 \(\phi\) | 负样本来源 |
|---|---|---|
| Off-policy | \(\phi = 0\) | 固定为初始学生模型生成 |
| On-policy | \(\phi = 1\) | 每 epoch 用最新 checkpoint 重采样 |
| Mixed-policy | \(\phi = 0.5\) | 以概率 \(\phi\) 用最新 checkpoint,否则用初始模型 |
为什么 on-policy 反而更差? 频繁更新的负样本质量更高但多样性下降,缩小了对比学习的区分空间。Mixed-policy 通过锚定初始学生模型保持负样本多样性。
训练策略¶
- 教师模型:InternLM 2.5 7B-Chat
- 学生模型:InternLM 2.5 1.8B-Chat、TinyLlama 1.1B-Instruct
- 全参数微调,5 个 epoch
- \(K = 8\),\(\lambda = 1\),\(\phi = 0.5\)
实验关键数据¶
主实验:不同学生模型在 5 个数据集上的准确率(%)¶
| 实验 | MedQA | ARC-C | StrategyQA | OBQA | GSM8K | 平均 |
|---|---|---|---|---|---|---|
| TinyLlama 1.1B | ||||||
| Zero-shot CoT | 29.78 | 29.95 | 43.52 | 26.60 | 11.97 | 28.36 |
| Single CoT FT | 32.10 | 32.63 | 46.25 | 29.05 | 31.56 | 34.32 |
| Diverse CoT FT | 34.85 | 35.40 | 47.84 | 33.60 | 36.22 | 37.58 |
| Off-Policy ORPO | 38.95 | 41.20 | 49.77 | 37.45 | 39.45 | 41.36 |
| On-Policy ORPO | 35.11 | 38.01 | 49.24 | 35.60 | 36.88 | 38.97 |
| Mixed-Policy ORPO | 40.25 | 43.55 | 51.25 | 40.10 | 40.72 | 43.17 |
| InternLM 1.8B | ||||||
| Zero-shot CoT | 35.82 | 37.12 | 54.15 | 27.40 | 41.02 | 39.10 |
| Single CoT FT | 37.94 | 40.45 | 57.50 | 41.35 | 44.38 | 44.32 |
| Diverse CoT FT | 40.56 | 42.15 | 58.66 | 54.50 | 47.50 | 48.67 |
| Off-Policy ORPO | 49.33 | 56.48 | 59.39 | 53.20 | 51.25 | 53.93 |
| On-Policy ORPO | 43.25 | 49.80 | 58.50 | 52.79 | 47.94 | 50.46 |
| Mixed-Policy ORPO | 50.43 | 59.32 | 61.75 | 55.22 | 52.47 | 55.84 |
教师模型(InternLM 2.5 7B-Chat)Zero-shot CoT 平均:59.58%
消融实验:各组件贡献¶
| 组件 | TinyLlama 平均提升 | InternLM 1.8B 平均提升 |
|---|---|---|
| 单CoT → 多样CoT | +3.26 | +4.35 |
| 多样CoT → Off-Policy ORPO | +3.78 | +5.26 |
| Off-Policy → Mixed-Policy | +1.81 | +1.91 |
| 总提升(单CoT → Mixed-Policy) | +8.85 | +11.52 |
关键发现¶
- 每个组件都有贡献:多样化推理链(+3~5%)、ORPO 对比(+4~5%)、mixed-policy(+1~2%),呈递增关系
- On-policy 反而不如 Off-policy:验证了负样本多样性比质量更重要的假设
- 混合策略统一最优:在所有数据集和学生模型上一致最佳
- 跨架构蒸馏有效:TinyLlama(Llama 架构)和 InternLM 1.8B(InternLM 架构)都从 InternLM 7B 教师获益
- 小模型收益更大:1.1B 模型平均绝对提升 +14.81%(vs Zero-shot),1.8B 模型 +16.74%
亮点与洞察¶
- 将蒸馏问题重新定义为偏好优化是关键洞察:黑盒 KD 本质上就是让学生学会"偏好"教师的推理方式,ORPO 提供了自然的框架
- 学生负样本 > 教师负样本的发现很有启发:因为学生负样本直接暴露了学生的弱点,对比训练更具针对性
- Mixed-policy 的设计巧妙平衡了质量与多样性:类似于 RL 中 ε-greedy 的思想
- 方法极其简洁:不需要 reward model、不需要 PPO 训练、不需要白盒访问,实现成本低
- K=8 的经验发现对后续工作有实用参考价值
局限性 / 可改进方向¶
- 仅验证了多选 QA 任务:依赖 ground truth label 判断正负样本,开放式生成任务需要额外的验证器
- 教师模型仅 7B:未测试更大教师(如 70B)的效果上限
- \(\phi\) 的设置较粗糙:仅测试了 \(\phi \in \{0, 0.5, 1\}\),未做细粒度搜索或自适应调节
- 全参数微调:在资源受限场景下,LoRA 等参数高效方法的兼容性未验证
- 缺少与 DPO、PPO 等其他偏好优化方法的对比
- 不应将 on-policy 和 off-policy 的差异简单归因于多样性——可能还有优化景观等因素
相关工作与启发¶
- ORPO(Hong et al., 2024):原始论文将 SFT 和偏好对齐合并,本文将其应用于蒸馏场景
- On-policy Distillation(Agarwal et al., 2024):白盒方法中 on-policy 更好,但本文在黑盒场景中发现 mixed-policy 更优
- MAGDI(Chen et al., 2024):使用多教师对比蒸馏,但不利用学生生成输出
- DistillM(Ko et al., 2024):白盒方法中 SGO 的重要性,本文将其推广到黑盒
评分¶
- ⭐⭐⭐⭐ (4/5)
- 创新性 ⭐⭐⭐⭐:将蒸馏→偏好优化的重定义很优雅,mixed-policy 是有效的新贡献
- 实验充分性 ⭐⭐⭐⭐:5 个数据集、2 个学生模型、逐组件消融,但缺少大模型教师和更多偏好优化方法对比
- 写作质量 ⭐⭐⭐⭐:简洁清晰,算法伪代码规范
- 实用价值 ⭐⭐⭐⭐⭐:方法简单有效,易于在实际小模型部署中使用
- 理论深度 ⭐⭐⭐:虽然有直觉解释(多样性 vs 质量),但缺少理论分析