Lifelong Learning with Behavior Consolidation for Vehicle Routing¶
会议: ICLR 2026 / arXiv: 2509.21765 / 代码: github / 领域: llm_nlp / 关键词: lifelong learning, vehicle routing problem, catastrophic forgetting, experience replay, behavior consolidation, neural solver
一句话总结¶
提出 LLR-BC——面向神经 VRP 求解器的终身学习框架,通过置信度感知经验加权(CaEW)和决策寻求行为巩固(DsBC),在分布和规模变化的任务序列上有效缓减灾难性遗忘、保持可塑性并提升零样本泛化。
研究背景与动机¶
神经组合优化面临严峻现实挑战:
- 一次性训练局限:固定分布/规模训练,新任务零样本差或微调遗忘。
- 真实场景动态性:物流中订单和模式随时间变化,无法一次性覆盖。
- 现有终身学习局限:仅两个 VRP 终身学习工作限于特化场景(规模/距离变化、顺序已知、可生成旧实例)。
首次探索分布+规模同时变化、顺序未知、实例不可控的通用 VRP 终身学习。
方法详解¶
整体框架¶
经验回放范式:固定缓冲区,每任务每 epoch 中 (1) 采样求解获取轨迹 (2) DRL 更新 (3) 从缓冲区采样旧经验 + CaEW 加权 + DsBC 巩固 (4) 联合优化。
关键设计¶
细粒度经验表示¶
决策步骤级别定义经验:e = (状态 + 完整概率分布)。仅在每任务最后 epoch 缓冲——此时求解器已充分训练。
蓄水池抽样¶
概率 |B|/N 替换,所有经验等概率缓冲。缓冲区仅占总训练经验的 0.01%。
置信度感知经验加权(CaEW)¶
低置信度(低方差)决策更需巩固:w(e) = 1 - var(P)/var_max(|P|),归一化。直觉:低置信度决策更易在模型更新中改变。
决策寻求行为巩固(DsBC)¶
使用反向 KL 散度(RKLD)而非标准 KLD 衡量行为差异。RKLD 的模式寻求特性使学习者集中于教师最高概率动作——对 VRP 求解器保持最高概率节点选择至关重要。
L_BC = sum_e w(e) sum_a P_theta(a) log(P_theta(a) / P(a))
损失函数 / 训练策略¶
L = L_DRL + alpha * L_BC。alpha=100,|B|=1000,|E|=16,每任务 200 epochs。LLR-BC 是模型和 RL 算法无关的通用框架。
实验关键数据¶
主实验¶
CVRP 和 TSP 上 6 个任务的终身学习结果(5 种任务顺序均值,x10^-3):
| 方法 | CVRP AP | CVRP AF | TSP AP | TSP AF |
|---|---|---|---|---|
| Fine-tuning | 23.5 | 19.9 | 14.8 | 28.9 |
| EWC | 28.3 | 19.5 | 18.3 | 18.6 |
| Feng | 24.6 | 3.2 | 24.1 | 1.8 |
| Li (inter) | 32.0 | 0.0 | 56.5 | 0.4 |
| LLR-BC | 4.2 | 0.7 | 3.4 | 0.8 |
AP 比所有基线低一个数量级:CVRP 4.2 vs 23.5+,TSP 3.4 vs 14.8+。
消融实验¶
核心组件消融(CVRP,x10^-3):
| 变体 | AP | AF | AMF | APl |
|---|---|---|---|---|
| LLR-BC 默认 | 4.9 | 0.6 | 0.7 | 4.3 |
| 无 CaEW | 5.2 | 0.8 | 0.8 | 4.2 |
| 用 KLD 替代 RKLD | 5.5 | 0.7 | 0.7 | 4.3 |
| 每 epoch 缓冲 | 7.8 | 3.1 | 3.1 | 3.9 |
| 实例级缓冲 | 35.4 | 23.4 | 27.2 | 4.4 |
步骤级经验表示最关键(实例级缓冲导致 AP 从 4.9 退化到 35.4)。
零样本泛化(TSPLIB/CVRPLIB):LLR-BC CVRPLIB 7.88 vs Fine-tuning 8.54;TSPLIB 18.08 vs 38.16。
关键发现¶
- 遗忘几乎消除:AF 接近零 vs Fine-tuning 19.9,超 20 倍差距
- 可塑性不受损:行为级巩固不像参数正则化那样累积约束
- 跨求解器通用:在 POMO、Omni、INViT 三种基础求解器上均有效
- 超参数稳健:|B|、|E|、alpha 在较大范围内变化时波动远小于与基线差距
- RKLD 优于 KLD:模式寻求更适合保持关键决策(AP 4.9 vs 5.5)
亮点与洞察¶
- 💡 细粒度行为回放:步骤级 + 完整概率分布,信息密度高
- 🎯 RKLD 行为巩固:从 VRP 决策特性论证模式寻求适用性
- 🔄 极低存储开销:缓冲区仅占总经验 0.01%
- 📐 五维评估指标体系:AP/AF/AMF/APl/AG 全面评估终身学习
局限性 / 可改进方向¶
- 任务边界假设:仍假设任务边界已知
- 固定经验采样量:任务规模差异大时可能失衡
- 跨问题变体受限:仅验证 CVRP 和 TSP
- 经验时效性:蓄水池等概率保留,未考虑时效
- 仅构造式求解器:未拓展到改进式求解器
相关工作与启发¶
| 方法 | 类型 | 区别 |
|---|---|---|
| Li et al., 2024 | VRP 终身学习 | 用半资源学旧实例;需可控生成 |
| Feng et al., 2025 | VRP 终身学习 | 限于规模/距离变化 |
| EWC | 正则化 | 参数级约束导致可塑性下降 |
| Fine-tuning | 基线 | 无遗忘防护 |
| AMDKD | 知识蒸馏 | 一次性训练 |
| Omni | 元学习 | 不保持旧任务性能 |
核心启发:VRP 终身学习中行为级巩固比参数级正则化或实例级回放更有效——决策空间的离散组合特性要求保持最高概率决策。
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |
| 总评 | ⭐⭐⭐⭐ |
扎实的终身学习+组合优化交叉工作。CaEW 和 DsBC 设计合理、动机清晰,实验极充分(5 种顺序、3 种求解器、多维评估),性能比基线提升一个数量级。