Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search¶
会议: ICLR 2026 Oral
arXiv: 2509.15927
代码: 无
领域: 强化学习 / 广告竞价
关键词: auto-bidding, generative planning, offline RL, trajectory evaluator, KL-Lipschitz constraint
一句话总结¶
提出 AIGB-Pearl,为生成式自动竞价方法引入离线轨迹评估器和 KL-Lipschitz 约束的分数最大化方案,使生成模型能在理论保证下安全地突破静态离线数据的性能天花板,在淘宝真实广告系统上实现 GMV +3% 的显著提升。
研究背景与动机¶
- 领域现状:自动竞价(auto-bidding)是在线广告的核心技术。AI-Generated Bidding(AIGB)用扩散模型等生成模型将竞价建模为条件轨迹生成任务,从离线数据中学习条件轨迹分布 \(p_\theta(\tau|y)\),在推理时通过设置高质量条件 \(y^*\) 来生成高回报的竞价轨迹。AIGB 避免了 TD 学习的自举不稳定性,比标准离线 RL 方法表现更好。
- 现有痛点:AIGB 本质上是条件行为克隆——只从离线数据中学习模仿,没有机制利用反馈信号来改进生成质量。当推理时设置超出训练数据范围的条件(外推),生成质量不可控,可能产生有风险的竞价轨迹。类比 LLM,AIGB 相当于只做了 SFT,缺少 RLHF 这一步。
- 核心矛盾:想要给 AIGB 加策略优化(最大化评估器分数),但评估器在离线数据外不可靠——如果生成模型偏离离线数据太远,评估器给出的分数就不准确(OOD 问题),优化会走偏。
- 本文要解决什么? 如何在保证安全性(不偏离数据太远)的前提下,让 AIGB 通过策略优化提升生成质量?
- 切入角度:从理论上分析评估器偏差的上界,发现偏差可以被两个因素控制:(1) 生成模型对条件 \(y\) 的 Lipschitz 连续性(控制外推敏感度),(2) 生成模型对离线数据的 KL 散度(控制模仿误差)。
- 核心idea一句话:构建轨迹评估器提供反馈 + KL-Lipschitz 双重约束确保安全外推,将生成式规划和策略优化有机统一。
方法详解¶
整体框架¶
AIGB-Pearl 由三部分组成:(1) 生成式规划器(Planner):基于扩散模型的条件轨迹生成器 \(p_\theta(\tau|y)\),输入目标质量 \(y^*\) 生成竞价轨迹;(2) 轨迹评估器(Evaluator):通过监督学习从离线数据学习 \(\hat{y}_\phi(\tau)\) 来评估轨迹质量;(3) 逆动力学控制器:从生成的轨迹中提取实际竞价动作。训练时,评估器先在离线数据上训练好,然后规划器通过最大化评估器分数来迭代改进。
关键设计¶
- 轨迹评估器(Trajectory Evaluator):
- 做什么:学习一个函数 \(\hat{y}_\phi(\tau)\) 来预测轨迹的累计回报(GMV/Budget)
- 核心思路:在离线数据集 \(\mathcal{D}\) 上做监督回归 \(\min_\phi \mathbb{E}_{\tau \sim \mathcal{D}}[(\hat{y}_\phi(\tau) - y(\tau))^2]\),同时施加 \(\sqrt{T}R_m\)-Lipschitz 正则化以继承真实轨迹质量函数的 Lipschitz 性质
-
设计动机:AIGB 缺少反馈信号,评估器填补了这个空白。Lipschitz 正则化确保评估器在数据外的预测不会剧烈跳变
-
KL-Lipschitz 约束的分数最大化:
- 做什么:在最大化评估器分数的同时约束规划器的行为,防止 OOD 崩塌
- 核心思路:优化目标为 \(\max_\theta \mathbb{E}_{\tau \sim p_\theta(\tau|y^*)}[\hat{y}_\phi(\tau)]\),受两个约束:(a) KL 约束 \(\mathbb{E}_{y}[D_{KL}(p_D(\tau|y) \| p_\theta(\tau|y))] \leq \delta_K\) 保证规划器不偏离离线数据太远;(b) Lipschitz 约束 \(\text{Lip}_{W_1}(p_\theta(\tau|y)) \leq L_p\) 控制规划器对条件 \(y\) 的敏感度
-
设计动机:Theorem 2 证明了评估器偏差的上界可以被分解为训练误差 \(\delta_D\)、KL 散度项(模仿误差)和 Wasserstein 距离项(生成敏感度),两个约束分别控制后两项
-
同步耦合技术(Synchronous Coupling):
- 做什么:在实际训练中满足规划器的 Lipschitz 约束
- 核心思路:对两个不同条件 \(y_1, y_2\) 生成轨迹时使用相同的高斯噪声序列 \(\{\eta_1, ..., \eta_T\}\),然后通过惩罚 \(\hat{W}_1(y_1, y_2; \theta) / |y_1 - y_2| \leq L_p\) 来约束 Lipschitz 常数
- 设计动机:直接计算分布间的 Wasserstein 距离不可行,同步耦合将其转化为可计算的样本级距离
训练策略¶
- 两阶段训练:先训练评估器(监督学习),再训练规划器(约束优化)
- 规划器的约束优化通过拉格朗日乘子法转化为无约束问题
- 固定扩散模型的方差 \(\sigma_\theta\) 为常数,简化 Lipschitz 惩罚的计算
实验关键数据¶
主实验(模拟环境,GMV)¶
| 预算 | USCB | BCQ | CQL | DT | DiffBid | AIGB-Pearl | Δ |
|---|---|---|---|---|---|---|---|
| 1.5k | 454.25 | 454.72 | 461.82 | 477.39 | 480.76 | 502.98 | +4.62% |
| 2.0k | 482.67 | 483.50 | 475.78 | 507.30 | 511.17 | 521.84 | +2.09% |
| 2.5k | 497.66 | 498.77 | 481.37 | 527.88 | 531.29 | 545.03 | +2.59% |
| 3.0k | 500.60 | 501.86 | 491.36 | 550.66 | 556.32 | 574.17 | +3.21% |
真实系统 A/B 测试(淘宝,6k 广告主,19 天)¶
| 对比 | GMV 提升 | BuyCnt 提升 | ROI 提升 | Cost 波动 |
|---|---|---|---|---|
| vs DiffBid | +3.00% | +2.20% | +1.89% | +1.10% |
| vs DT | +3.30% | +0.64% | +0.16% | +0.66% |
| vs USCB | +3.43% | +0.74% | +4.24% | -0.78% |
| vs MOPO | +3.13% | +2.14% | +4.87% | -1.77% |
消融实验(真实 A/B,6k 广告主,8 天)¶
| 配置 | GMV 变化 | 说明 |
|---|---|---|
| Full AIGB-Pearl | baseline | 完整模型 |
| w/o KL constraint | -1.09% | 去掉 KL 约束后 GMV 下降 |
| w/o Lipschitz constraint | -1.81% | 去掉 Lipschitz 约束后下降更多 |
关键发现¶
- AIGB-Pearl 在所有预算水平和所有对比方法上一致胜出,GMV 提升约 3%(在淘宝规模下每天百万级 RMB 增量)
- Lipschitz 约束的贡献(+1.8%)大于 KL 约束(+1.1%),说明控制生成对条件的敏感度比约束对离线数据的偏离更关键
- 评估器在训练数据上 AUC 89.9%、OOD 数据上 85.5%(5-fold CV),泛化良好
- 对未见过的 4k 广告主,AIGB-Pearl 仍保持 +3% 的 GMV 提升,泛化能力优于原始 AIGB
- 去掉双重约束后,生成的轨迹出现明显病态行为:过度消耗预算、反向预算分配、预算利用不足
亮点与洞察¶
- 理论与实践的统一:从评估器偏差上界(Theorem 2)严格推导出 KL + Lipschitz 双约束的必要性,再通过同步耦合使理论约束可计算。方法论可迁移到其他使用生成模型做离线决策的场景
- "AIGB 的 RLHF":AIGB 到 AIGB-Pearl 的转变完美平行于 LLM 中 SFT → RLHF 的范式。评估器 = 奖励模型,KL 约束 = PPO 中的策略约束
- 真实部署验证:在淘宝级别的真实广告系统上做了 19 天的大规模 A/B 测试(6k 广告主),工业级验证
局限性 / 可改进方向¶
- 评估器基于离线数据训练,其预测上限决定了策略优化的天花板
- 超参数 \(L_p\) 需从数据估计,估计精度影响约束松紧
- 仅在广告竞价场景验证,向机器人控制等其他决策场景的迁移需更多实验
- 同步耦合增加训练开销(每步需生成两条轨迹比较)
- 评估器与规划器分阶段训练,联合训练是否更优未做探索
相关工作与启发¶
- vs DiffBid/AIGB:原始 AIGB 仅做条件行为克隆,无反馈优化;AIGB-Pearl 增加了评估器反馈 + 约束优化
- vs 离线 RL(CQL/IQL):离线 RL 使用 TD 自举估值,训练不稳定;AIGB-Pearl 用监督学习评估器,训练更稳定
- vs MORL:基于模型的离线 RL 通过环境模型做保守搜索;AIGB-Pearl 直接在轨迹空间优化
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 RL 策略优化融入生成式规划的框架新颖,KL-Lipschitz 约束有理论创新
- 实验充分度: ⭐⭐⭐⭐⭐ 模拟 + 淘宝真实系统大规模 A/B 测试,消融和理论验证完整
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨清晰
- 价值: ⭐⭐⭐⭐⭐ 在淘宝级别部署验证的实用系统,直接产生商业价值