跳转至

Probing Neural Combinatorial Optimization Models

会议: NeurIPS 2025
arXiv: 2510.22131
代码: GitHub
领域: 优化
关键词: 神经组合优化, 可解释性, 探针分析, 嵌入表示, 泛化能力

一句话总结

首次系统性地将探针(probing)方法引入神经组合优化(NCO)模型的研究,提出CS-Probing工具来分析模型表示中编码的决策知识、归纳偏置和泛化机制,并发现关键嵌入维度可用于提升模型泛化性能。

研究背景与动机

神经组合优化(NCO)方法在TSP、CVRP等经典组合优化问题上取得了接近甚至超越专用启发式算法的效果,但这些基于Transformer的深度模型内部学到了什么知识、如何做出决策,仍然是一个黑箱。

核心痛点:NCO模型的不可解释性阻碍了学术研究和实际部署。研究者和利益相关方需要深入理解模型的内部机制,包括:(1) 模型学到了什么决策相关知识?(2) 模型如何学习和利用这些知识?

已有工作的不足:传统可解释性方法如梯度归因、可视化和神经元消融各有局限。梯度归因只能显示输出对输入的敏感性,不能揭示知识在隐层表示中的编码方式;神经元消融缺乏统计严谨性。

本文切入角度:借鉴NLP领域成功的探针(probing)方法论——如果一个简单的线性模型能从模型嵌入中准确预测某种知识,说明该知识被模型编码在其表示中。但组合优化问题不像NLP有天然的子任务,需要专门设计探针任务。同时提出CS-Probing,通过分析线性探针系数的绝对值和统计显著性来获取更深层的洞察。

方法详解

整体框架

  1. 设计针对组合优化问题的分层探针任务(低层级 + 高层级)
  2. 用线性探针模型检验NCO嵌入是否编码了相应知识
  3. 通过CS-Probing分析具体哪些嵌入维度有重要贡献

研究了三个代表性的基于Transformer的NCO模型:AM (Attention Model)、POMO和LEHD。

关键设计

  1. 探针任务设计:针对TSP问题设计了两个层次的任务——

    • Task 1(低层级):能否感知欧几里得距离?用线性探针从嵌入中回归节点间的欧几里得距离,\(R^2\) 值衡量效果
    • Task 2(高层级):能否避免贪心短视?判断模型是否学到了不简单选最近节点的能力,以AUC衡量
    • Task 3/4(CVRP):理解约束关系(需求加和性)和路由归属信息

核心发现:初始嵌入(线性投影后)无法线性捕获欧几里得距离(\(R^2 \approx 0\)),但经过注意力层后 \(R^2\) 显著提升,LEHD达到0.94。所有模型在Task 2上AUC > 0.8,说明学到了全局最优解的非短视知识。

  1. CS-Probing(系数显著性探针):核心创新。分析线性探针模型中每个嵌入维度的系数绝对值和统计显著性(p值),用Benjamini-Hochberg过程控制FDR在0.05。这使得分析从"嵌入是否编码了某知识"深化为"哪些维度编码了什么知识"。

关键发现:LEHD(性能最好的模型)的嵌入呈现明显的稀疏激活模式——少于20个维度有强激活(绝对值达数十),而AM和POMO的激活更分散(绝对值 < 4)。LEHD的候选节点嵌入相比当前节点嵌入有更多统计显著维度。

  1. 泛化机制分析:通过CS-Probing发现泛化能力与嵌入维度复用率直接相关。在模型从20节点泛化到100节点时,LEHD始终使用相同的Top-2维度(第31和第69维用于距离感知,第31和第97维用于避免短视),而AM和POMO的关键维度在泛化时发生变化。这提供了"泛化能力来自一致的知识编码"的直接证据。

损失函数 / 训练策略

探针模型使用线性回归(Task 1)或线性分类(Task 2),冻结NCO模型参数只训练探针。分析的NCO模型按其原始论文的方法训练(RL或SL)。基于CS-Probing的洞察,对LEHD添加L1正则化 \(\lambda \|\mathbf{h}\|_1\) 来促进嵌入稀疏性以提升泛化。

实验关键数据

主实验(探针性能)

探针输入 Task 1 (\(R^2\)) Task 2 (AUC) 说明
AM-Init -0.0003 0.49 初始嵌入无法捕获信息
AM-Enc-l3 (w/ ints) 0.9282 0.83 编码器输出含丰富知识
POMO-Enc-l6 (w/ ints) 0.7917 0.86 类似模式
LEHD-Dec-l6 (w/o ints) 0.9418 0.86 无需交互项即有高\(R^2\)
LEHD-Dec-l6 (w/ ints) 0.9415 0.86 LEHD表示最丰富

消融实验(关键维度验证)

配置 TSP100最优性间隙 说明
LEHD原版(全128维) 0.57% 基线
仅保留维度31, 97 0.65% 两个维度即可近乎等效
仅保留维度32, 97 0.75% 换一个维度性能下降
仅保留维度21, 123 183.80% 随机维度完全失效
清零维度31, 97 60.43% 关键维度被移除→性能崩溃
清零维度98 0.59% 非关键维度移除无影响
清零维度98, 126 0.62% 高激活但非关键维度也不重要
正则化强度 λ TSP100 TSP200(泛化) TSP1000(泛化)
0 (原始) 0.57% 0.86% 3.17%
1e-6 0.58% 0.88% 2.87%
1e-4 0.57% 0.73% 2.97%

关键发现

  • 分层知识编码:浅层学习空间关系(距离感知),深层发展策略推理(避免短视)
  • 训练动力学:AM和POMO在训练初期快速发展避免短视能力;LEHD从训练一开始就具备该能力
  • 仅2个维度足以近乎重现完整模型性能——这意味着NCO模型的有效表示空间极度压缩
  • 基于探针洞察的简单正则化可提升泛化:TSP1000上间隙从3.17%降至2.87%

亮点与洞察

  • 首创性:首次系统性地将探针方法引入NCO领域,填补了NCO可解释性研究的空白
  • CS-Probing工具的通用性:不仅适用于Transformer模型,还可扩展到GNN(JSSP问题)和扩散模型(DIFUSCO)
  • "2维足够"的发现令人震惊:128维嵌入中仅2维就包含了几乎全部决策信息,暗示NCO模型可能存在巨大的表示冗余,为模型压缩和蒸馏提供了理论依据
  • 泛化机制的直接证据:不同于以往"观察性能差异"的间接分析,CS-Probing通过维度复用率提供了泛化成功/失败的结构性解释

局限与展望

  • 目前主要聚焦于TSP和CVRP,对更复杂问题(调度、装箱等)的探针任务设计有待拓展
  • 正则化实验虽然有效但较初步,更系统的基于探针洞察的模型改进值得深入
  • CS-Probing依赖线性可分性假设,可能遗漏了非线性编码的知识
  • 仅分析了三种NCO模型,对更新的架构(如Mamba、状态空间模型)的适用性有待验证

相关工作与启发

  • 方法论上受NLP探针研究启发,但在任务设计上做了组合优化特定的创新
  • 与NCO泛化研究(如LEHD的原始论文声称的"动态学习策略")形成呼应,CS-Probing提供了该声明的定量验证
  • 启发方向:探针分析可成为NCO社区的标准评估工具,类似于NLP中的各种Benchmark

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将探针引入NCO领域,CS-Probing方法有原创性
  • 实验充分度: ⭐⭐⭐⭐⭐ 实验极为详尽,包含多种模型、任务、消融和跨分布泛化
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分内容在附录中需要跳转
  • 价值: ⭐⭐⭐⭐⭐ 对NCO社区有范式级别的贡献,开创了NCO可解释性的新方向

相关论文