跳转至

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

会议: ICLR 2026 Oral
arXiv: 2509.15927
代码: 无
领域: 强化学习 / 广告竞价
关键词: auto-bidding, generative planning, offline RL, trajectory evaluator, KL-Lipschitz constraint

一句话总结

提出 AIGB-Pearl,为生成式自动竞价方法引入离线轨迹评估器和 KL-Lipschitz 约束的分数最大化方案,使生成模型能在理论保证下安全地突破静态离线数据的性能天花板,在淘宝真实广告系统上实现 GMV +3% 的显著提升。

研究背景与动机

  1. 领域现状:自动竞价(auto-bidding)是在线广告的核心技术。AI-Generated Bidding(AIGB)用扩散模型等生成模型将竞价建模为条件轨迹生成任务,从离线数据中学习条件轨迹分布 \(p_\theta(\tau|y)\),在推理时通过设置高质量条件 \(y^*\) 来生成高回报的竞价轨迹。AIGB 避免了 TD 学习的自举不稳定性,比标准离线 RL 方法表现更好。
  2. 现有痛点:AIGB 本质上是条件行为克隆——只从离线数据中学习模仿,没有机制利用反馈信号来改进生成质量。当推理时设置超出训练数据范围的条件(外推),生成质量不可控,可能产生有风险的竞价轨迹。类比 LLM,AIGB 相当于只做了 SFT,缺少 RLHF 这一步。
  3. 核心矛盾:想要给 AIGB 加策略优化(最大化评估器分数),但评估器在离线数据外不可靠——如果生成模型偏离离线数据太远,评估器给出的分数就不准确(OOD 问题),优化会走偏。
  4. 本文要解决什么? 如何在保证安全性(不偏离数据太远)的前提下,让 AIGB 通过策略优化提升生成质量?
  5. 切入角度:从理论上分析评估器偏差的上界,发现偏差可以被两个因素控制:(1) 生成模型对条件 \(y\) 的 Lipschitz 连续性(控制外推敏感度),(2) 生成模型对离线数据的 KL 散度(控制模仿误差)。
  6. 核心idea一句话:构建轨迹评估器提供反馈 + KL-Lipschitz 双重约束确保安全外推,将生成式规划和策略优化有机统一。

方法详解

整体框架

AIGB-Pearl 由三部分组成:(1) 生成式规划器(Planner):基于扩散模型的条件轨迹生成器 \(p_\theta(\tau|y)\),输入目标质量 \(y^*\) 生成竞价轨迹;(2) 轨迹评估器(Evaluator):通过监督学习从离线数据学习 \(\hat{y}_\phi(\tau)\) 来评估轨迹质量;(3) 逆动力学控制器:从生成的轨迹中提取实际竞价动作。训练时,评估器先在离线数据上训练好,然后规划器通过最大化评估器分数来迭代改进。

关键设计

  1. 轨迹评估器(Trajectory Evaluator):
  2. 做什么:学习一个函数 \(\hat{y}_\phi(\tau)\) 来预测轨迹的累计回报(GMV/Budget)
  3. 核心思路:在离线数据集 \(\mathcal{D}\) 上做监督回归 \(\min_\phi \mathbb{E}_{\tau \sim \mathcal{D}}[(\hat{y}_\phi(\tau) - y(\tau))^2]\),同时施加 \(\sqrt{T}R_m\)-Lipschitz 正则化以继承真实轨迹质量函数的 Lipschitz 性质
  4. 设计动机:AIGB 缺少反馈信号,评估器填补了这个空白。Lipschitz 正则化确保评估器在数据外的预测不会剧烈跳变

  5. KL-Lipschitz 约束的分数最大化:

  6. 做什么:在最大化评估器分数的同时约束规划器的行为,防止 OOD 崩塌
  7. 核心思路:优化目标为 \(\max_\theta \mathbb{E}_{\tau \sim p_\theta(\tau|y^*)}[\hat{y}_\phi(\tau)]\),受两个约束:(a) KL 约束 \(\mathbb{E}_{y}[D_{KL}(p_D(\tau|y) \| p_\theta(\tau|y))] \leq \delta_K\) 保证规划器不偏离离线数据太远;(b) Lipschitz 约束 \(\text{Lip}_{W_1}(p_\theta(\tau|y)) \leq L_p\) 控制规划器对条件 \(y\) 的敏感度
  8. 设计动机:Theorem 2 证明了评估器偏差的上界可以被分解为训练误差 \(\delta_D\)、KL 散度项(模仿误差)和 Wasserstein 距离项(生成敏感度),两个约束分别控制后两项

  9. 同步耦合技术(Synchronous Coupling):

  10. 做什么:在实际训练中满足规划器的 Lipschitz 约束
  11. 核心思路:对两个不同条件 \(y_1, y_2\) 生成轨迹时使用相同的高斯噪声序列 \(\{\eta_1, ..., \eta_T\}\),然后通过惩罚 \(\hat{W}_1(y_1, y_2; \theta) / |y_1 - y_2| \leq L_p\) 来约束 Lipschitz 常数
  12. 设计动机:直接计算分布间的 Wasserstein 距离不可行,同步耦合将其转化为可计算的样本级距离

训练策略

  • 两阶段训练:先训练评估器(监督学习),再训练规划器(约束优化)
  • 规划器的约束优化通过拉格朗日乘子法转化为无约束问题
  • 固定扩散模型的方差 \(\sigma_\theta\) 为常数,简化 Lipschitz 惩罚的计算

实验关键数据

主实验(模拟环境,GMV)

预算 USCB BCQ CQL DT DiffBid AIGB-Pearl Δ
1.5k 454.25 454.72 461.82 477.39 480.76 502.98 +4.62%
2.0k 482.67 483.50 475.78 507.30 511.17 521.84 +2.09%
2.5k 497.66 498.77 481.37 527.88 531.29 545.03 +2.59%
3.0k 500.60 501.86 491.36 550.66 556.32 574.17 +3.21%

真实系统 A/B 测试(淘宝,6k 广告主,19 天)

对比 GMV 提升 BuyCnt 提升 ROI 提升 Cost 波动
vs DiffBid +3.00% +2.20% +1.89% +1.10%
vs DT +3.30% +0.64% +0.16% +0.66%
vs USCB +3.43% +0.74% +4.24% -0.78%
vs MOPO +3.13% +2.14% +4.87% -1.77%

消融实验(真实 A/B,6k 广告主,8 天)

配置 GMV 变化 说明
Full AIGB-Pearl baseline 完整模型
w/o KL constraint -1.09% 去掉 KL 约束后 GMV 下降
w/o Lipschitz constraint -1.81% 去掉 Lipschitz 约束后下降更多

关键发现

  • AIGB-Pearl 在所有预算水平和所有对比方法上一致胜出,GMV 提升约 3%(在淘宝规模下每天百万级 RMB 增量)
  • Lipschitz 约束的贡献(+1.8%)大于 KL 约束(+1.1%),说明控制生成对条件的敏感度比约束对离线数据的偏离更关键
  • 评估器在训练数据上 AUC 89.9%、OOD 数据上 85.5%(5-fold CV),泛化良好
  • 对未见过的 4k 广告主,AIGB-Pearl 仍保持 +3% 的 GMV 提升,泛化能力优于原始 AIGB
  • 去掉双重约束后,生成的轨迹出现明显病态行为:过度消耗预算、反向预算分配、预算利用不足

亮点与洞察

  • 理论与实践的统一:从评估器偏差上界(Theorem 2)严格推导出 KL + Lipschitz 双约束的必要性,再通过同步耦合使理论约束可计算。方法论可迁移到其他使用生成模型做离线决策的场景
  • "AIGB 的 RLHF":AIGB 到 AIGB-Pearl 的转变完美平行于 LLM 中 SFT → RLHF 的范式。评估器 = 奖励模型,KL 约束 = PPO 中的策略约束
  • 真实部署验证:在淘宝级别的真实广告系统上做了 19 天的大规模 A/B 测试(6k 广告主),工业级验证

局限性 / 可改进方向

  • 评估器基于离线数据训练,其预测上限决定了策略优化的天花板
  • 超参数 \(L_p\) 需从数据估计,估计精度影响约束松紧
  • 仅在广告竞价场景验证,向机器人控制等其他决策场景的迁移需更多实验
  • 同步耦合增加训练开销(每步需生成两条轨迹比较)
  • 评估器与规划器分阶段训练,联合训练是否更优未做探索

相关工作与启发

  • vs DiffBid/AIGB:原始 AIGB 仅做条件行为克隆,无反馈优化;AIGB-Pearl 增加了评估器反馈 + 约束优化
  • vs 离线 RL(CQL/IQL):离线 RL 使用 TD 自举估值,训练不稳定;AIGB-Pearl 用监督学习评估器,训练更稳定
  • vs MORL:基于模型的离线 RL 通过环境模型做保守搜索;AIGB-Pearl 直接在轨迹空间优化

评分

  • 新颖性: ⭐⭐⭐⭐ 将 RL 策略优化融入生成式规划的框架新颖,KL-Lipschitz 约束有理论创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 模拟 + 淘宝真实系统大规模 A/B 测试,消融和理论验证完整
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨清晰
  • 价值: ⭐⭐⭐⭐⭐ 在淘宝级别部署验证的实用系统,直接产生商业价值