Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search¶

会议: ICLR 2026 Oral
arXiv: 2509.15927
代码: 无
领域: 强化学习 / 广告竞价
关键词: auto-bidding, generative planning, offline RL, trajectory evaluator, KL-Lipschitz constraint

一句话总结¶

提出 AIGB-Pearl，为生成式自动竞价方法引入离线轨迹评估器和 KL-Lipschitz 约束的分数最大化方案，使生成模型能在理论保证下安全地突破静态离线数据的性能天花板，在淘宝真实广告系统上实现 GMV +3% 的显著提升。

研究背景与动机¶

领域现状：自动竞价（auto-bidding）是在线广告的核心技术。AI-Generated Bidding（AIGB）用扩散模型等生成模型将竞价建模为条件轨迹生成任务，从离线数据中学习条件轨迹分布 \(p_\theta(\tau|y)\)，在推理时通过设置高质量条件 \(y^*\) 来生成高回报的竞价轨迹。AIGB 避免了 TD 学习的自举不稳定性，比标准离线 RL 方法表现更好。
现有痛点：AIGB 本质上是条件行为克隆——只从离线数据中学习模仿，没有机制利用反馈信号来改进生成质量。当推理时设置超出训练数据范围的条件（外推），生成质量不可控，可能产生有风险的竞价轨迹。类比 LLM，AIGB 相当于只做了 SFT，缺少 RLHF 这一步。
核心矛盾：想要给 AIGB 加策略优化（最大化评估器分数），但评估器在离线数据外不可靠——如果生成模型偏离离线数据太远，评估器给出的分数就不准确（OOD 问题），优化会走偏。
本文要解决什么？ 如何在保证安全性（不偏离数据太远）的前提下，让 AIGB 通过策略优化提升生成质量？
切入角度：从理论上分析评估器偏差的上界，发现偏差可以被两个因素控制：(1) 生成模型对条件 \(y\) 的 Lipschitz 连续性（控制外推敏感度），(2) 生成模型对离线数据的 KL 散度（控制模仿误差）。
核心idea一句话：构建轨迹评估器提供反馈 + KL-Lipschitz 双重约束确保安全外推，将生成式规划和策略优化有机统一。

方法详解¶

整体框架¶

AIGB-Pearl 由三部分组成：(1) 生成式规划器（Planner）：基于扩散模型的条件轨迹生成器 \(p_\theta(\tau|y)\)，输入目标质量 \(y^*\) 生成竞价轨迹；(2) 轨迹评估器（Evaluator）：通过监督学习从离线数据学习 \(\hat{y}_\phi(\tau)\) 来评估轨迹质量；(3) 逆动力学控制器：从生成的轨迹中提取实际竞价动作。训练时，评估器先在离线数据上训练好，然后规划器通过最大化评估器分数来迭代改进。

关键设计¶

轨迹评估器（Trajectory Evaluator）:
做什么：学习一个函数 \(\hat{y}_\phi(\tau)\) 来预测轨迹的累计回报（GMV/Budget）
核心思路：在离线数据集 \(\mathcal{D}\) 上做监督回归 \(\min_\phi \mathbb{E}_{\tau \sim \mathcal{D}}[(\hat{y}_\phi(\tau) - y(\tau))^2]\)，同时施加 \(\sqrt{T}R_m\)-Lipschitz 正则化以继承真实轨迹质量函数的 Lipschitz 性质
设计动机：AIGB 缺少反馈信号，评估器填补了这个空白。Lipschitz 正则化确保评估器在数据外的预测不会剧烈跳变
KL-Lipschitz 约束的分数最大化:
做什么：在最大化评估器分数的同时约束规划器的行为，防止 OOD 崩塌
核心思路：优化目标为 \(\max_\theta \mathbb{E}_{\tau \sim p_\theta(\tau|y^*)}[\hat{y}_\phi(\tau)]\)，受两个约束：(a) KL 约束 \(\mathbb{E}_{y}[D_{KL}(p_D(\tau|y) \| p_\theta(\tau|y))] \leq \delta_K\) 保证规划器不偏离离线数据太远；(b) Lipschitz 约束 \(\text{Lip}_{W_1}(p_\theta(\tau|y)) \leq L_p\) 控制规划器对条件 \(y\) 的敏感度
设计动机：Theorem 2 证明了评估器偏差的上界可以被分解为训练误差 \(\delta_D\)、KL 散度项（模仿误差）和 Wasserstein 距离项（生成敏感度），两个约束分别控制后两项
同步耦合技术（Synchronous Coupling）:
做什么：在实际训练中满足规划器的 Lipschitz 约束
核心思路：对两个不同条件 \(y_1, y_2\) 生成轨迹时使用相同的高斯噪声序列 \(\{\eta_1, ..., \eta_T\}\)，然后通过惩罚 \(\hat{W}_1(y_1, y_2; \theta) / |y_1 - y_2| \leq L_p\) 来约束 Lipschitz 常数
设计动机：直接计算分布间的 Wasserstein 距离不可行，同步耦合将其转化为可计算的样本级距离

训练策略¶

两阶段训练：先训练评估器（监督学习），再训练规划器（约束优化）
规划器的约束优化通过拉格朗日乘子法转化为无约束问题
固定扩散模型的方差 \(\sigma_\theta\) 为常数，简化 Lipschitz 惩罚的计算

实验关键数据¶

主实验（模拟环境，GMV）¶

预算	USCB	BCQ	CQL	DT	DiffBid	AIGB-Pearl	Δ
1.5k	454.25	454.72	461.82	477.39	480.76	502.98	+4.62%
2.0k	482.67	483.50	475.78	507.30	511.17	521.84	+2.09%
2.5k	497.66	498.77	481.37	527.88	531.29	545.03	+2.59%
3.0k	500.60	501.86	491.36	550.66	556.32	574.17	+3.21%

真实系统 A/B 测试（淘宝，6k 广告主，19 天）¶

对比	GMV 提升	BuyCnt 提升	ROI 提升	Cost 波动
vs DiffBid	+3.00%	+2.20%	+1.89%	+1.10%
vs DT	+3.30%	+0.64%	+0.16%	+0.66%
vs USCB	+3.43%	+0.74%	+4.24%	-0.78%
vs MOPO	+3.13%	+2.14%	+4.87%	-1.77%

消融实验（真实 A/B，6k 广告主，8 天）¶

配置	GMV 变化	说明
Full AIGB-Pearl	baseline	完整模型
w/o KL constraint	-1.09%	去掉 KL 约束后 GMV 下降
w/o Lipschitz constraint	-1.81%	去掉 Lipschitz 约束后下降更多

关键发现¶

AIGB-Pearl 在所有预算水平和所有对比方法上一致胜出，GMV 提升约 3%（在淘宝规模下每天百万级 RMB 增量）
Lipschitz 约束的贡献（+1.8%）大于 KL 约束（+1.1%），说明控制生成对条件的敏感度比约束对离线数据的偏离更关键
评估器在训练数据上 AUC 89.9%、OOD 数据上 85.5%（5-fold CV），泛化良好
对未见过的 4k 广告主，AIGB-Pearl 仍保持 +3% 的 GMV 提升，泛化能力优于原始 AIGB
去掉双重约束后，生成的轨迹出现明显病态行为：过度消耗预算、反向预算分配、预算利用不足

亮点与洞察¶

理论与实践的统一：从评估器偏差上界（Theorem 2）严格推导出 KL + Lipschitz 双约束的必要性，再通过同步耦合使理论约束可计算。方法论可迁移到其他使用生成模型做离线决策的场景
"AIGB 的 RLHF"：AIGB 到 AIGB-Pearl 的转变完美平行于 LLM 中 SFT → RLHF 的范式。评估器 = 奖励模型，KL 约束 = PPO 中的策略约束
真实部署验证：在淘宝级别的真实广告系统上做了 19 天的大规模 A/B 测试（6k 广告主），工业级验证

局限性 / 可改进方向¶

评估器基于离线数据训练，其预测上限决定了策略优化的天花板
超参数 \(L_p\) 需从数据估计，估计精度影响约束松紧
仅在广告竞价场景验证，向机器人控制等其他决策场景的迁移需更多实验
同步耦合增加训练开销（每步需生成两条轨迹比较）
评估器与规划器分阶段训练，联合训练是否更优未做探索

评分¶

新颖性: ⭐⭐⭐⭐ 将 RL 策略优化融入生成式规划的框架新颖，KL-Lipschitz 约束有理论创新
实验充分度: ⭐⭐⭐⭐⭐ 模拟 + 淘宝真实系统大规模 A/B 测试，消融和理论验证完整
写作质量: ⭐⭐⭐⭐ 理论推导严谨清晰
价值: ⭐⭐⭐⭐⭐ 在淘宝级别部署验证的实用系统，直接产生商业价值