跳转至

Lifelong Learning with Behavior Consolidation for Vehicle Routing

会议: ICLR 2026 / arXiv: 2509.21765 / 代码: github / 领域: llm_nlp / 关键词: lifelong learning, vehicle routing problem, catastrophic forgetting, experience replay, behavior consolidation, neural solver

一句话总结

提出 LLR-BC——面向神经 VRP 求解器的终身学习框架,通过置信度感知经验加权(CaEW)和决策寻求行为巩固(DsBC),在分布和规模变化的任务序列上有效缓减灾难性遗忘、保持可塑性并提升零样本泛化。

研究背景与动机

神经组合优化面临严峻现实挑战:

  1. 一次性训练局限:固定分布/规模训练,新任务零样本差或微调遗忘。
  2. 真实场景动态性:物流中订单和模式随时间变化,无法一次性覆盖。
  3. 现有终身学习局限:仅两个 VRP 终身学习工作限于特化场景(规模/距离变化、顺序已知、可生成旧实例)。

首次探索分布+规模同时变化、顺序未知、实例不可控的通用 VRP 终身学习。

方法详解

整体框架

经验回放范式:固定缓冲区,每任务每 epoch 中 (1) 采样求解获取轨迹 (2) DRL 更新 (3) 从缓冲区采样旧经验 + CaEW 加权 + DsBC 巩固 (4) 联合优化。

关键设计

细粒度经验表示

决策步骤级别定义经验:e = (状态 + 完整概率分布)。仅在每任务最后 epoch 缓冲——此时求解器已充分训练。

蓄水池抽样

概率 |B|/N 替换,所有经验等概率缓冲。缓冲区仅占总训练经验的 0.01%。

置信度感知经验加权(CaEW)

低置信度(低方差)决策更需巩固:w(e) = 1 - var(P)/var_max(|P|),归一化。直觉:低置信度决策更易在模型更新中改变。

决策寻求行为巩固(DsBC)

使用反向 KL 散度(RKLD)而非标准 KLD 衡量行为差异。RKLD 的模式寻求特性使学习者集中于教师最高概率动作——对 VRP 求解器保持最高概率节点选择至关重要。

L_BC = sum_e w(e) sum_a P_theta(a) log(P_theta(a) / P(a))

损失函数 / 训练策略

L = L_DRL + alpha * L_BC。alpha=100,|B|=1000,|E|=16,每任务 200 epochs。LLR-BC 是模型和 RL 算法无关的通用框架。

实验关键数据

主实验

CVRP 和 TSP 上 6 个任务的终身学习结果(5 种任务顺序均值,x10^-3):

方法 CVRP AP CVRP AF TSP AP TSP AF
Fine-tuning 23.5 19.9 14.8 28.9
EWC 28.3 19.5 18.3 18.6
Feng 24.6 3.2 24.1 1.8
Li (inter) 32.0 0.0 56.5 0.4
LLR-BC 4.2 0.7 3.4 0.8

AP 比所有基线低一个数量级:CVRP 4.2 vs 23.5+,TSP 3.4 vs 14.8+。

消融实验

核心组件消融(CVRP,x10^-3):

变体 AP AF AMF APl
LLR-BC 默认 4.9 0.6 0.7 4.3
无 CaEW 5.2 0.8 0.8 4.2
用 KLD 替代 RKLD 5.5 0.7 0.7 4.3
每 epoch 缓冲 7.8 3.1 3.1 3.9
实例级缓冲 35.4 23.4 27.2 4.4

步骤级经验表示最关键(实例级缓冲导致 AP 从 4.9 退化到 35.4)。

零样本泛化(TSPLIB/CVRPLIB):LLR-BC CVRPLIB 7.88 vs Fine-tuning 8.54;TSPLIB 18.08 vs 38.16。

关键发现

  1. 遗忘几乎消除:AF 接近零 vs Fine-tuning 19.9,超 20 倍差距
  2. 可塑性不受损:行为级巩固不像参数正则化那样累积约束
  3. 跨求解器通用:在 POMO、Omni、INViT 三种基础求解器上均有效
  4. 超参数稳健:|B|、|E|、alpha 在较大范围内变化时波动远小于与基线差距
  5. RKLD 优于 KLD:模式寻求更适合保持关键决策(AP 4.9 vs 5.5)

亮点与洞察

  • 💡 细粒度行为回放:步骤级 + 完整概率分布,信息密度高
  • 🎯 RKLD 行为巩固:从 VRP 决策特性论证模式寻求适用性
  • 🔄 极低存储开销:缓冲区仅占总经验 0.01%
  • 📐 五维评估指标体系:AP/AF/AMF/APl/AG 全面评估终身学习

局限性 / 可改进方向

  1. 任务边界假设:仍假设任务边界已知
  2. 固定经验采样量:任务规模差异大时可能失衡
  3. 跨问题变体受限:仅验证 CVRP 和 TSP
  4. 经验时效性:蓄水池等概率保留,未考虑时效
  5. 仅构造式求解器:未拓展到改进式求解器

相关工作与启发

方法 类型 区别
Li et al., 2024 VRP 终身学习 用半资源学旧实例;需可控生成
Feng et al., 2025 VRP 终身学习 限于规模/距离变化
EWC 正则化 参数级约束导致可塑性下降
Fine-tuning 基线 无遗忘防护
AMDKD 知识蒸馏 一次性训练
Omni 元学习 不保持旧任务性能

核心启发:VRP 终身学习中行为级巩固比参数级正则化或实例级回放更有效——决策空间的离散组合特性要求保持最高概率决策。

评分

维度 分数
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
总评 ⭐⭐⭐⭐

扎实的终身学习+组合优化交叉工作。CaEW 和 DsBC 设计合理、动机清晰,实验极充分(5 种顺序、3 种求解器、多维评估),性能比基线提升一个数量级。