ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning¶

会议: CVPR 2026
arXiv: 2603.04265
代码: Project Page
领域: 视频理解 / 过程规划
关键词: 过程规划, 可微Viterbi, 过程知识图, 教学视频, 结构感知训练

一句话总结¶

将过程知识图（PKG）通过可微Viterbi层端到端嵌入规划模型，使神经网络只需学习发射概率而非记忆完整过程结构，在CrossTask/COIN/NIV上以仅5-7M参数（比扩散/LLM方法少1-3个数量级）达到SOTA成功率，并建立了统一的评估基准。

研究背景与动机¶

领域现状：视频过程规划是给定起始和目标视觉状态，预测中间动作序列的任务，是构建可穿戴AI助手等应用的核心能力。现有SOTA方法包括基于扩散模型（PDPP、KEPP、MTID，约42M-1B参数）、基于LLM（PlanLLM，约385M参数）和基于Transformer（SCHEMA，约6M参数）的架构。

现有痛点：这些方法都将过程知识隐式编码在网络参数中，需要从大量数据中学习复杂的过程结构（如"放底层面包→加火鸡→加生菜→放顶层面包"的合理顺序），导致：(1) 数据效率低——需要大量训练样本来记忆过程规则；(2) 计算成本高——需要越来越复杂和庞大的模型；(3) 泛化有限——在短于训练时的规划长度上表现急剧下降。

核心矛盾：人类在进行过程规划时并非从零推理，而是将内在的过程知识（动作先验、前置条件、典型顺序等）自然融入规划过程。然而现有方法即使使用了过程知识图（PKG），也仅将其作为推理时的后处理解码器，训练过程中模型仍然无法感知过程结构。

本文目标：如何将过程知识图从推理后处理上升为训练时的引导信号，让结构化先验直接参与端到端优化。

切入角度：将过程规划建模为隐马尔可夫模型（HMM）中的最优状态序列解码问题，用Viterbi算法求解。关键创新是将Viterbi中不可微的max和argmax操作替换为可微的log-sum-exp和softmax松弛，使梯度可以从规划损失流回视觉编码器。

核心 idea：不让网络记忆过程，只让它学习"当前视觉状态与各动作的匹配度"（发射概率），过程的合理顺序由知识图保证——可微Viterbi层使得这种分工可以端到端训练。

方法详解¶

整体框架¶

ViterbiPlanNet由四个阶段组成：(1) 过程知识编码——从训练数据构建PKG，节点是动作、边是转移概率（基于共现统计）；(2) 视觉编码——用冻结视觉骨干+可学习投影将起始/目标视频片段编码为向量 \(v_s^{enc}, v_g^{enc} \in \mathbb{R}^E\)；(3) 发射概率计算——Transformer编码器+MLP+Sigmoid从视觉编码预测发射矩阵 \(b \in \mathbb{R}^{T \times N}\)（\(T\)为规划步数，\(N\)为动作数）；(4) 结构化解码——可微Viterbi层以PKG为参数、发射概率为输入输出软规划 \(\tilde{\pi} \in [0,1]^{T \times N}\)。

关键设计¶

可微Viterbi层（DVL）:
- 功能：将标准Viterbi解码算法转化为可微操作，使端到端训练成为可能
- 核心思路：将max替换为S-max（log-sum-exp松弛），argmax替换为S-argmax（softmax松弛）。在每个时间步 \(t\)，计算前驱分数 \(s_{i \to j}^{(t)} = \delta_{t-1}(i) \cdot \omega(i,j)\)，其中 \(\omega(i,j)\) 是PKG中的固定转移概率。状态分数更新为 \(\delta_t(j) = b[t,j] \cdot \text{S-max}(\{s_{i \to j}^{(t)}\})\)。同时计算软回溯指针 \(\boldsymbol{\psi}_t(j, \cdot) = \text{S-argmax}(\{s_{i \to j}^{(t)}\})\)，递归组合得到软规划 \(\tilde{\pi}\)
- 设计动机：标准Viterbi的max/argmax操作梯度为零，无法传播训练信号。通过平滑松弛，规划损失的梯度可以流过DVL训练 \(f_{emiss}\) 网络，使其学习到与过程结构一致的发射概率。DVL不引入任何额外可训练参数
概率图模型框架:
- 功能：将过程规划严格建模为HMM的最优序列解码问题
- 核心思路：假设马尔可夫性质 \(P(a_t | a_{t-1})\)，将联合概率分解为 \(P(\pi = a_{1:T} | v_{0:T}) \propto \prod_{t=1}^T P(a_t | a_{t-1}) \cdot P(v_t | a_t)\)，其中转移概率由PKG提供、发射概率由神经网络预测。最优规划即最大化此概率
- 设计动机：这个建模将规划问题分解为两个独立部分——过程结构（转移）和视觉匹配（发射），前者由知识图固定提供，极大地简化了神经网络的学习任务
过程知识图（PKG）构建与利用:
- 功能：从训练数据中构建外部过程知识，作为DVL的固定参数
- 核心思路：PKG \(\mathcal{G} = (\mathcal{V}, \mathcal{E}, \omega)\) 中节点是动作集合，有向边表示合法转移，边权 \(\omega(i,j)\) 基于训练集中动作共现统计估计。每个数据集单独构建PKG。推理时使用标准Viterbi解码从软规划得到离散动作序列
- 设计动机：相比让模型隐式记忆过程规则，显式的图结构提供了可靠的结构先验，且完全无额外参数开销。实验显示PKG对本方法的增益（+5.98% SR）远大于用于后处理（SCHEMA +3.31%）或条件化（KEPP +2.56%）

损失函数 / 训练策略¶

总损失为三项之和：\(\mathcal{L} = \mathcal{L}_{plan} + \mathcal{L}_{align} + \mathcal{L}_{task}\)。\(\mathcal{L}_{plan}\) 是DVL输出软规划与ground-truth独热规划之间的MSE损失，是核心监督信号。\(\mathcal{L}_{align}\) 是视觉-语义对齐损失，鼓励视觉编码与过程状态的文本描述对齐。\(\mathcal{L}_{task}\) 是任务分类损失，引导编码器保持全局任务语义。每个模型用5个不同随机种子训练，报告均值和90%置信区间。

实验关键数据¶

主实验¶

数据集	指标	ViterbiPlanNet	SCHEMA	PlanLLM	PDPP	提升(vs次优)
CrossTask T=3	SR↑	38.45±0.32	37.24±0.60	36.84±1.21	36.73±0.59	+1.21±0.69
CrossTask T=3	mAcc↑	63.07±0.17	62.69±0.28	61.56±1.03	61.96±0.59	+0.38
COIN T=3	SR↑	33.99±0.23	32.89±0.61	33.44±0.15	22.37±0.57	+0.55±0.27
NIV T=3	SR↑	32.37±0.96	26.30±1.49	30.00±1.41	26.52±1.56	+2.37±1.63
NIV T=4	SR↑	27.54±0.70	24.39±1.84	23.42±1.40	21.40±0.53	+3.15±1.93

参数量对比：ViterbiPlanNet仅5-7M，vs PDPP 42M，PlanLLM 385M，MTID 1085M。与MTID（1B参数）对比，SR和mAcc接近但mIoU显著更高（T=3: 76.92 vs 69.17），参数减少200倍。

消融实验¶

配置	训练DVL	推理VD	SR↑	mAcc↑	mIoU↑	说明
Base Model	✗	✗	32.47	60.63	82.45	无结构引导
+推理VD	✗	✓	32.99	58.57	82.34	后处理效果微弱
+训练DVL+推理VD	✓	✓	38.45	63.07	83.89	完整方法，+5.98 SR
仅训练DVL	✓	✗	20.05	54.61	76.99	发射概率≠直接预测

关键发现¶

结构感知训练是关键：DVL在训练时引入带来+5.98% SR提升，远超推理时添加VD（+0.52%）或DVL（-0.38%）
PKG利用效率对比：ViterbiPlanNet从PKG获益最大（+5.98%），远超SCHEMA（+3.31%后处理）、KEPP（+2.56%条件化）、PlanLLM（+1.97%后处理）
样本效率优势：在仅用20%训练数据时，ViterbiPlanNet已超过SCHEMA用100%数据的表现
跨长度泛化强：在T=6训练、T=3测试的cross-horizon实验中，ViterbiPlanNet SR达27.77%，比次优SCHEMA（16.12%）高11.65个点
LLM/VLM基线（包括Gemini 2.5 Pro和Qwen3-30B）表现远不及训练方法，简单PKG beam search就能超过大多数LLM/VLM

亮点与洞察¶

思路极其简洁深刻：将复杂的规划问题分解为"视觉匹配"和"过程知识"两部分，让网络只学简单的发射概率，结构由知识图保证
可微动态规划的应用非常优雅，将经典算法与深度学习无缝结合，DVL不引入任何额外参数
建立并开源了统一评估基准，解决了该领域长期存在的数据分割和度量不一致问题，5种子+bootstrap置信区间的实验规范值得推广
跨长度泛化能力（cross-horizon consistency）是方法论上的重要贡献，证明结构化先验带来的是真正的泛化而非记忆

局限与展望¶

PKG质量依赖训练数据的动作共现统计，在数据稀缺或分布偏移的场景下可能不准确
仅处理离散动作空间，无法直接应用于连续控制任务
软近似在极长序列（T>6）时精度可能下降，论文主要报告T=3,4的结果
HMM的马尔可夫假设限制了对长程依赖的建模，虽然PKG部分缓解了这一问题
需要预先定义动作分类名称和构建PKG，非完全端到端的设定

评分¶

新颖性: ⭐⭐⭐⭐⭐ 可微Viterbi层的设计理念原创且深刻，将训练时的结构引导与推理时的后处理做出了本质区分
实验充分度: ⭐⭐⭐⭐⭐ 3数据集、统一评估基准、5种子bootstrap、LLM/VLM基线对比、跨长度泛化、样本效率分析，极其全面严谨
写作质量: ⭐⭐⭐⭐⭐ 概率框架的推导清晰自洽，问题建模→可微化→实验验证的逻辑链非常完整
价值: ⭐⭐⭐⭐ 方法论贡献突出，可微动态规划的范式有望推广到其他需要结构先验的序列预测任务