跳转至

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

会议: ACL 2025
arXiv: 2406.19976
代码: 无
领域: LLM/NLP
关键词: bilevel optimization, data reweighting, LLM training, scalability, first-order method

一句话总结

ScaleBiO 提出基于罚函数重构的全一阶双层优化算法,首次将双层优化应用于 30B+ 参数 LLM 的数据源重加权,在 Qwen-2.5-32B 上实现 GSM8K +9%、MATH +5.8% 的提升。

研究背景与动机

  1. 领域现状:数据质量显著影响 LLM 性能,但找到不同数据源的最优权重很困难
  2. 现有痛点:传统双层优化需要二阶信息(Hessian/Jacobian),无法扩展到 3B 以上模型
  3. 核心矛盾:双层优化理论上是数据重加权的最优框架,但计算复杂度限制了实际应用
  4. 核心idea一句话:用罚函数将双层问题转为极小极大问题,解耦内-外层依赖,实现全一阶优化

方法详解

整体框架

双层优化公式:\(\min_\lambda L_1(\lambda, w^*(\lambda))\) s.t. \(w^*(\lambda) = \arg\min_w \sum_i (p_i/n_i) \sum_j L_2(w, a_j^i)\),其中 \(\lambda\) 是数据源权重,\(L_1\) 是验证集损失(外层),\(L_2\) 是训练损失(内层)。

关键设计

  1. 罚函数重构:转为 \(\min_{\lambda,w} \max_u L_1(\lambda,w) + \alpha(L_2(\lambda,w) - L_2(\lambda,u))\)\(\alpha\) 解耦内外层依赖,只需一阶梯度
  2. 随机块坐标下降:每步只更新选定的参数块,结合 LISA 只更新 top-k 重要层,支持 32B 在 8×H100 上训练
  3. 收敛保证\(O(\epsilon^{-7/2})\) 收敛率,与现有理论最优一致

实验关键数据

主实验(Instruction Following, MT-Bench)

方法 Llama-3-8B Qwen-2-7B Gemma-2-9B
Uniform 6.11 6.66 5.31
LESS 6.06 7.18 7.20
RHO-LOSS 6.89 7.34 7.38
ScaleBiO 7.12 7.76 7.51

30B 模型结果(Qwen-2.5-32B)

方法 GSM8K MATH
Uniform 78.1 54.0
ScaleBiO 87.1 (+9.0) 59.8 (+5.8)

唯一成功扩展到 32B 的双层优化方法。

关键发现

  • 自动数据源发现:Alpaca-GPT4(10% 数据)被自动分配 30+ 权重,正确识别优质数据
  • 可扩展性突破:首次超越 3B 参数壁垒,达到 32B
  • 跨模型差异:不同模型学到的最优权重显著不同,反映预训练数据差异

亮点与洞察

  • 罚函数重构是关键创新:将双层优化从“嵌套”变为“联合”,避免了二阶信息,这个思路可推广到其他双层优化场景
  • 从 GPT-2 (124M) 到 Qwen-2.5 (32B) 的跨尺度验证很有说服力

局限性 / 可改进方向

  • 未在大规模预训练中验证,只用于 instruction tuning/fine-tuning
  • 可能引入偏差,如果验证集不能代表目标分布
  • 单一 loss 指标可能忽略其他重要方面(安全性、对齐等)

相关工作与启发

  • vs LESS: LESS 用数据影响函数选择子集,不做连续权重优化;ScaleBiO 学习连续权重更精细
  • vs RHO-LOSS: RHO-LOSS 用 reference model 打分,需逻辑回归拟合;ScaleBiO 端到端优化更直接

评分

  • 新颖性: ⭐⭐⭐⭐ 罚函数重构实现大规模双层优化是重要突破
  • 实验充分度: ⭐⭐⭐⭐⭐ GPT-2 到 32B 跨尺度验证,多任务多模型
  • 写作质量: ⭐⭐⭐⭐ 理论与实践结合好
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 训练数据优化有重要实用价值