Structured Reinforcement Learning for Combinatorial Decision-Making¶
会议: NeurIPS 2025
arXiv: 2505.19053
代码: GitHub
领域: 强化学习 / 组合优化 / 运筹学
关键词: combinatorial MDP, structured actor, Fenchel-Young loss, COAML pipeline, primal-dual algorithm
一句话总结¶
提出 Structured Reinforcement Learning (SRL),将组合优化求解器作为可微层嵌入 actor-critic 的 actor 中,通过 Fenchel-Young 损失 + 高斯扰动实现端到端梯度传播,纯在线学习、无需专家数据,在6个工业级组合决策问题上匹配模仿学习、超越无结构 RL 最高 92%。
研究背景与动机¶
- 问题定义——组合MDP (C-MDP):状态 s∈S,动作 a∈A(s)⊂R^{d(s)},A(s) 为组合问题的可行解集合(路由、调度、品类选择等),凸包 C(s)=conv(A(s)) 称为矩多面体。目标是在未知转移概率 P(s',r|s,a) 下找到累积折扣奖励最大化的策略
- 现有方法三大痛点:
- 无结构 RL(PPO/SAC):将 CO 层视为环境的一部分,诱导分段常数且高度非光滑的奖励函数,梯度方差极大,收敛困难
- 结构化模仿学习 (SIL):需要预先收集专家演示数据,性能上限受专家策略约束;只观察专家轨迹,偏离专家路径后无法恢复
- 预测+优化 (predict-then-optimize):将预测与优化分离,无法端到端学习长期收益
- 核心洞察:将 CO 求解器直接嵌入 actor 架构(而非作为环境后处理),使 actor 天然输出组合可行解,同时通过扰动正则化使 CO 层可微
方法详解¶
整体架构:COAML Actor-Critic¶
SRL 将标准 actor-critic 中的神经网络 actor 替换为 COAML (Combinatorial Optimization-Augmented ML) pipeline: - 神经网络 φ_w:将状态 s 映射为评分向量 θ = φ_w(s) ∈ R^d(编码上下文信息、变量依赖、环境动态) - CO 层 f:以 θ 为线性目标系数求解 f(θ,s) = argmax_{a∈A(s)} ⟨θ|a⟩,保证可行性与可扩展性 - 策略表示:π_w(·|s) := δ_{f(φ_w(s),s)},推理时为确定性 Dirac 策略,无需采样或投影 - Critic ψ_β:估计 Q(s,a),使用标准 TD 学习更新,复杂环境中采用 double Q-learning 缓解过估计
核心技术1:Fenchel-Young 损失解决不可微问题¶
CO 层 f 关于 θ 是分段常数的——在矩多面体 C(s) 的正常锥(normal cone)内部,f 映射到同一顶点,梯度为零。SRL 通过高斯扰动正则化解决: - 引入扰动 Z~N(0,ε),将损失变为 L_Ω(θ;â) = E[max_{a∈A(s)} (θ+Z)ᵀa] - θᵀâ - 该损失对 θ 既可微又凸,梯度通过 pathwise estimator 计算(方差远低于 score-function estimator) - Fenchel-Young 框架的优势:零损失当且仅当 â 是正则化预测问题的解,天然度量非最优性
核心技术2:基于 Critic 的在线目标动作估计¶
SRL 在线构造目标动作 â,完全不依赖专家(这是与 SIL 的核心区别): 1. 对评分 θ 施加高斯扰动 Z~N(θ,σ_b),采样 m 个扰动向量 η 2. 每个 η 通过 CO 层生成候选动作 a' = f(η,s) 3. Critic 评估各候选动作的 Q 值 4. Softmax 加权聚合:â = Σ a'·exp(Q/τ) / Σ exp(Q/τ) - 温度 τ→0 趋近贪心 argmax,τ→∞ 趋近均匀平均 - â 不必是可行解(不用于执行),仅作为 Fenchel-Young 损失的训练信号 - Softmax 估计器三个好处:跨动作分配信用促进探索、值平均缓解 critic 过估计偏差、避免极端动作防止过早收敛
核心技术3:三重高斯扰动机制¶
SRL 使用三个独立的高斯扰动分别服务不同目的: - σ_f(前向传播):探索状态空间 S,使智能体访问更多样的状态 - σ_b(目标动作选择):探索组合动作空间 A(s),为 Critic 评估提供候选 - ε(Fenchel-Young 损失):正则化 CO 层使其可微,构造凸代理目标
几何解释:对偶空间中的采样原始-对偶算法¶
论文提供了深刻的几何分析(聚焦静态情形 T=1,但通过 Critic 学习可推广到多阶段): - 动作空间的凸包 C(s) 构成矩多面体,评分向量 θ 定义正常锥分割(normal fan) - 策略可表示为分布单纯形 Δ^{A(s)} 上的正则化优化:π_w(·|s) = argmax_{q∈Δ} {⟨Aᵀφ_w(s)|q⟩ - Ω(q)} - SRL 的 actor 更新可严格写为5步原始-对偶迭代(Proposition 2):采样→经验分布→子梯度→softmax 聚合→Fenchel-Young 更新 - 与 Bouvier et al. (2025) 的关键区别:后者要求解 max_{a∈A(s)} r(s,a,ξ)+⟨θ|a⟩ 这一非线性组合优化(通常不可行),SRL 用 m 次采样 + Critic 评估替代,保持可计算性
为什么不用 SAC?¶
论文详细解释了选择 PPO 而非 SAC 作为无结构 RL 基线的原因: - SAC 要求 actor 同时输出均值和标准差,需要特殊网络架构 - SAC 要求 Critic 对 actor 可微,但 Q(s,a) 直接作用于组合动作 a,无法反传 - SAC 的熵正则化作用于 θ 的分布,而实际需要正则化组合动作 a 的分布
实验设置与结果¶
6个测试环境¶
静态(T=1):Warcraft 最短路径(Dijkstra CO 层)、单机调度(ranking CO 层,50-100 个作业)、随机车辆调度(LP 流求解器 CO 层,25 个任务) 动态(T>1): - 动态车辆调度 DVSP(外生不确定性):8 个时间步,请求随时间揭示,需实时路径规划 - 动态品类优化 DAP(内生不确定性):顾客选择遵循 MNL 模型,物品特征随决策演化 - 网格世界最短路径 GSPP(内生不确定性):目标到达后移动,路径成本受历史影响
实验设计¶
- 三种算法使用相同 COAML pipeline;SRL 和 PPO 使用相同 Critic 架构
- PPO 调参后确定训练 episode 数,SRL/SIL 保持一致的更新步数
- 每个算法 10 个随机种子,报告均值和标准差
- 全部实验在 MacBook Air M3 上运行(Julia 语言),单环境 3-90 分钟
动态环境关键结果¶
| 对比 | DVSP | DAP | GSPP |
|---|---|---|---|
| SRL vs SIL | 相当 | +8% | +78% |
| SRL vs PPO | +16% | +77% | +92% |
稳定性(训练验证奖励标准差 / 测试奖励标准差 / 训练时间)¶
| 算法 | DVSP | DAP | GSPP |
|---|---|---|---|
| SIL | 0.3 / 0.4 / 12m | 0.8 / 11.9 / 3m | 39.3 / 1.1 / 11m |
| PPO | 5.8 / 5.6 / 3m | 5.4 / 13.5 / 5m | 105.8 / 47.0 / 10m |
| SRL | 0.3 / 0.3 / 31m | 1.8 / 1.9 / 31m | 72.1 / 0.6 / 34m |
- PPO 训练方差比 SRL 高达 80 倍,测试方差在 GSPP 上高 78 倍(47.0 vs 0.6)
- SRL 在 GSPP 上超越在线最优专家策略 79%——SIL 受限于专家上限,无法逃离次优状态
- 收敛速度:PPO 需 160-200 episode 才趋于平稳;SRL 和 SIL 相近,SIL 在 DAP/GSPP 上快 10-150 episode(因有专家引导)
- 静态任务中 SRL 匹配 SIL 且无需专家,最高超越 PPO 54%
计算成本分析¶
- SRL 每次更新最多调用 CO 层 61 次(m=40 采样 + 20 FY 损失 + 1 前向),SIL 20 次,PPO 仅 2 次
- 计算成本随 CO 层复杂度线性增长:GSPP(简单 CO 层)三种方法耗时相近,DVSP(复杂 CO 层)SRL 约为 SIL 的 2.5 倍
亮点与深度洞察¶
- 纯在线学习无需专家数据却保持极低方差——CO 层的结构约束将指数级动作空间的探索压缩到评分向量 θ 的连续空间
- 组合可行性天然保证:CO 层直接输出满足所有约束的可行解,无需 PPO 式的连续松弛+后投影
- 动态环境优势最大:SIL 只观察专家轨迹、偏离后无法恢复;SRL 通过持续在线探索可发现超越专家的策略
- 理论-实践统一:原始-对偶几何解释不仅优雅,还直接指导了算法设计——用采样替代不可行的非线性组合优化
- 轻量实验设备:全部实验在 MacBook Air M3 上完成,COAML pipeline 的神经网络通常很小,凸显方法的实用性
局限性¶
- 计算开销:需频繁调用 CO 求解器(最多 61 次/更新),复杂 CO 层(如 VRP)时成本显著增加
- 收敛速度:纯在线探索无专家引导,比 SIL 慢 10-150 个 episode
- Critic 限制:Q 函数不要求可分解(灵活性高),但也因此无法直接在动作上优化 Critic,必须依赖采样
- 环境规模:目前在中等规模问题验证(调度 50-100 作业、VSP 25 个任务),超大规模的可扩展性未知
- 静态 Critic 假设:几何分析基于固定 Critic 的静态情形,多阶段动态设定下的理论保证尚未建立