ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting¶
会议: ACL 2025
arXiv: 2406.19976
代码: 无
领域: LLM/NLP
关键词: bilevel optimization, data reweighting, LLM training, scalability, first-order method
一句话总结¶
ScaleBiO 提出基于罚函数重构的全一阶双层优化算法,首次将双层优化应用于 30B+ 参数 LLM 的数据源重加权,在 Qwen-2.5-32B 上实现 GSM8K +9%、MATH +5.8% 的提升。
研究背景与动机¶
- 领域现状:数据质量显著影响 LLM 性能,但找到不同数据源的最优权重很困难
- 现有痛点:传统双层优化需要二阶信息(Hessian/Jacobian),无法扩展到 3B 以上模型
- 核心矛盾:双层优化理论上是数据重加权的最优框架,但计算复杂度限制了实际应用
- 核心idea一句话:用罚函数将双层问题转为极小极大问题,解耦内-外层依赖,实现全一阶优化
方法详解¶
整体框架¶
双层优化公式:\(\min_\lambda L_1(\lambda, w^*(\lambda))\) s.t. \(w^*(\lambda) = \arg\min_w \sum_i (p_i/n_i) \sum_j L_2(w, a_j^i)\),其中 \(\lambda\) 是数据源权重,\(L_1\) 是验证集损失(外层),\(L_2\) 是训练损失(内层)。
关键设计¶
- 罚函数重构:转为 \(\min_{\lambda,w} \max_u L_1(\lambda,w) + \alpha(L_2(\lambda,w) - L_2(\lambda,u))\),\(\alpha\) 解耦内外层依赖,只需一阶梯度
- 随机块坐标下降:每步只更新选定的参数块,结合 LISA 只更新 top-k 重要层,支持 32B 在 8×H100 上训练
- 收敛保证:\(O(\epsilon^{-7/2})\) 收敛率,与现有理论最优一致
实验关键数据¶
主实验(Instruction Following, MT-Bench)¶
| 方法 | Llama-3-8B | Qwen-2-7B | Gemma-2-9B |
|---|---|---|---|
| Uniform | 6.11 | 6.66 | 5.31 |
| LESS | 6.06 | 7.18 | 7.20 |
| RHO-LOSS | 6.89 | 7.34 | 7.38 |
| ScaleBiO | 7.12 | 7.76 | 7.51 |
30B 模型结果(Qwen-2.5-32B)¶
| 方法 | GSM8K | MATH |
|---|---|---|
| Uniform | 78.1 | 54.0 |
| ScaleBiO | 87.1 (+9.0) | 59.8 (+5.8) |
唯一成功扩展到 32B 的双层优化方法。
关键发现¶
- 自动数据源发现:Alpaca-GPT4(10% 数据)被自动分配 30+ 权重,正确识别优质数据
- 可扩展性突破:首次超越 3B 参数壁垒,达到 32B
- 跨模型差异:不同模型学到的最优权重显著不同,反映预训练数据差异
亮点与洞察¶
- 罚函数重构是关键创新:将双层优化从“嵌套”变为“联合”,避免了二阶信息,这个思路可推广到其他双层优化场景
- 从 GPT-2 (124M) 到 Qwen-2.5 (32B) 的跨尺度验证很有说服力
局限性 / 可改进方向¶
- 未在大规模预训练中验证,只用于 instruction tuning/fine-tuning
- 可能引入偏差,如果验证集不能代表目标分布
- 单一 loss 指标可能忽略其他重要方面(安全性、对齐等)
相关工作与启发¶
- vs LESS: LESS 用数据影响函数选择子集,不做连续权重优化;ScaleBiO 学习连续权重更精细
- vs RHO-LOSS: RHO-LOSS 用 reference model 打分,需逻辑回归拟合;ScaleBiO 端到端优化更直接
评分¶
- 新颖性: ⭐⭐⭐⭐ 罚函数重构实现大规模双层优化是重要突破
- 实验充分度: ⭐⭐⭐⭐⭐ GPT-2 到 32B 跨尺度验证,多任务多模型
- 写作质量: ⭐⭐⭐⭐ 理论与实践结合好
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 训练数据优化有重要实用价值