Lifelong Learning with Behavior Consolidation for Vehicle Routing¶

会议: ICLR 2026 / arXiv: 2509.21765 / 代码: github / 领域: llm_nlp / 关键词: lifelong learning, vehicle routing problem, catastrophic forgetting, experience replay, behavior consolidation, neural solver

一句话总结¶

提出 LLR-BC——面向神经 VRP 求解器的终身学习框架，通过置信度感知经验加权（CaEW）和决策寻求行为巩固（DsBC），在分布和规模变化的任务序列上有效缓减灾难性遗忘、保持可塑性并提升零样本泛化。

研究背景与动机¶

神经组合优化面临严峻现实挑战：

一次性训练局限：固定分布/规模训练，新任务零样本差或微调遗忘。
真实场景动态性：物流中订单和模式随时间变化，无法一次性覆盖。
现有终身学习局限：仅两个 VRP 终身学习工作限于特化场景（规模/距离变化、顺序已知、可生成旧实例）。

首次探索分布+规模同时变化、顺序未知、实例不可控的通用 VRP 终身学习。

方法详解¶

整体框架¶

经验回放范式：固定缓冲区，每任务每 epoch 中 (1) 采样求解获取轨迹 (2) DRL 更新 (3) 从缓冲区采样旧经验 + CaEW 加权 + DsBC 巩固 (4) 联合优化。

关键设计¶

细粒度经验表示¶

决策步骤级别定义经验：e = （状态 + 完整概率分布）。仅在每任务最后 epoch 缓冲——此时求解器已充分训练。

蓄水池抽样¶

概率 |B|/N 替换，所有经验等概率缓冲。缓冲区仅占总训练经验的 0.01%。

置信度感知经验加权（CaEW）¶

低置信度（低方差）决策更需巩固：w(e) = 1 - var(P)/var_max(|P|)，归一化。直觉：低置信度决策更易在模型更新中改变。

决策寻求行为巩固（DsBC）¶

使用反向 KL 散度（RKLD）而非标准 KLD 衡量行为差异。RKLD 的模式寻求特性使学习者集中于教师最高概率动作——对 VRP 求解器保持最高概率节点选择至关重要。

L_BC = sum_e w(e) sum_a P_theta(a) log(P_theta(a) / P(a))

损失函数 / 训练策略¶

L = L_DRL + alpha * L_BC。alpha=100，|B|=1000，|E|=16，每任务 200 epochs。LLR-BC 是模型和 RL 算法无关的通用框架。

实验关键数据¶

主实验¶

CVRP 和 TSP 上 6 个任务的终身学习结果（5 种任务顺序均值，x10^-3）：

方法	CVRP AP	CVRP AF	TSP AP	TSP AF
Fine-tuning	23.5	19.9	14.8	28.9
EWC	28.3	19.5	18.3	18.6
Feng	24.6	3.2	24.1	1.8
Li (inter)	32.0	0.0	56.5	0.4
LLR-BC	4.2	0.7	3.4	0.8

AP 比所有基线低一个数量级：CVRP 4.2 vs 23.5+，TSP 3.4 vs 14.8+。

消融实验¶

核心组件消融（CVRP，x10^-3）：

变体	AP	AF	AMF	APl
LLR-BC 默认	4.9	0.6	0.7	4.3
无 CaEW	5.2	0.8	0.8	4.2
用 KLD 替代 RKLD	5.5	0.7	0.7	4.3
每 epoch 缓冲	7.8	3.1	3.1	3.9
实例级缓冲	35.4	23.4	27.2	4.4

步骤级经验表示最关键（实例级缓冲导致 AP 从 4.9 退化到 35.4）。

零样本泛化（TSPLIB/CVRPLIB）：LLR-BC CVRPLIB 7.88 vs Fine-tuning 8.54；TSPLIB 18.08 vs 38.16。

关键发现¶

遗忘几乎消除：AF 接近零 vs Fine-tuning 19.9，超 20 倍差距
可塑性不受损：行为级巩固不像参数正则化那样累积约束
跨求解器通用：在 POMO、Omni、INViT 三种基础求解器上均有效
超参数稳健：|B|、|E|、alpha 在较大范围内变化时波动远小于与基线差距
RKLD 优于 KLD：模式寻求更适合保持关键决策（AP 4.9 vs 5.5）

亮点与洞察¶

💡 细粒度行为回放：步骤级 + 完整概率分布，信息密度高
🎯 RKLD 行为巩固：从 VRP 决策特性论证模式寻求适用性
🔄 极低存储开销：缓冲区仅占总经验 0.01%
📐 五维评估指标体系：AP/AF/AMF/APl/AG 全面评估终身学习

局限性 / 可改进方向¶

任务边界假设：仍假设任务边界已知
固定经验采样量：任务规模差异大时可能失衡
跨问题变体受限：仅验证 CVRP 和 TSP
经验时效性：蓄水池等概率保留，未考虑时效
仅构造式求解器：未拓展到改进式求解器

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总评	⭐⭐⭐⭐

扎实的终身学习+组合优化交叉工作。CaEW 和 DsBC 设计合理、动机清晰，实验极充分（5 种顺序、3 种求解器、多维评估），性能比基线提升一个数量级。

方法	类型	区别
Li et al., 2024	VRP 终身学习	用半资源学旧实例；需可控生成
Feng et al., 2025	VRP 终身学习	限于规模/距离变化
EWC	正则化	参数级约束导致可塑性下降
Fine-tuning	基线	无遗忘防护
AMDKD	知识蒸馏	一次性训练
Omni	元学习	不保持旧任务性能