Training-free Online Video Step Grounding¶

会议: NeurIPS 2025
arXiv: 2510.16989
代码: GitHub
领域: 多模态VLM
关键词: 视频步骤定位, 贝叶斯滤波, LMM零样本, 在线推理, 无训练

一句话总结¶

提出BaGLM，一种无需训练的在线视频步骤定位方法，利用贝叶斯滤波将LLM估计的步骤依赖关系和LMM估计的步骤进度融入零样本LMM预测中，在三个数据集上超越现有需训练的离线方法。

研究背景与动机¶

视频步骤定位（Video Step Grounding, VSG）旨在给定一组程序性步骤描述和一段视频后，识别视频中执行了哪些步骤。这在AR/XR实时引导（如辅助烹饪、组装家具）中具有重要应用价值。

现有VSG方法面临两个核心限制：

依赖训练集：需要收集和标注训练数据（如HowTo100M的叙述文本），训练成本高且可能导致模型偏向特定视频和任务分布

要求离线处理：假设可获取完整视频，无法适用于实时视频流场景

本文探索的核心问题：能否无需训练、在线上完成VSG？ 作者首先做了一个令人惊讶的发现——直接用零样本LMM逐段预测步骤，已经能超越需训练的离线SOTA方法（InternVL2.5-8B在CrossTask上超MPTVA 6.4%，在Ego4D GoalStep上超NaSVA 16.1%）。这启发了一个自然的改进方向：能否将过去帧的信息注入LMM的预测中，保持零样本优势的同时进一步提升性能？

方法详解¶

整体框架¶

BaGLM将VSG建模为贝叶斯滤波问题：状态是当前段对应的步骤 $a$，观测是当前视频段 $\mathbf{S}_t$。通过predict步（利用步骤间转移关系）和update步（利用LMM的观测预测）递归估计后验信念 $\text{bel}_t(a)$。

关键设计¶

LMM作为零样本观测模型

将VSG转化为多选题形式：给定当前视频段 $\mathbf{S}_t$ 和所有步骤选项（含"none"），提示LMM输出每个选项的概率。归一化后得到步骤概率分布 $f_{\text{LMM}}^{\text{VSG}}: \mathcal{V} \times \mathcal{A} \to \Delta^{K+1}$。

使用InternVL2.5-8B，每次仅输入当前2秒段加步骤列表，无需全视频访问。

PREDICT步：LLM驱动的步骤转移模型

利用LLM（LLaMA3-70B-Instruct）估计步骤间的依赖矩阵 $\mathbf{D} \in \mathbb{R}^{K \times K}$，其中 $\mathbf{D}_{i,j}$ 表示步骤 $a_j$ 是步骤 $a_i$ 前置条件的概率。初始化转移矩阵 $\mathbf{T} = \mathbf{D}^\top$。

关键创新是根据步骤进度动态调整转移矩阵。引入两个度量：

就绪度（Readiness）：步骤 $a_i$ 的前置条件完成程度： $$\mathbf{r}_t[i] = \frac{\sum_j \mathbf{D}_{i,j} \cdot \max_{\tau < t} \text{progress}_\tau[j]}{\sum_j \mathbf{D}_{i,j}}$$
有效性（Validity）：步骤 $a_i$ 的后继是否尚未执行（防止重复归因）： $$\mathbf{v}_t[i] = \frac{\sum_j \mathbf{D}_{j,i} \cdot (1 - \max_{\tau < t} \text{progress}_\tau[j])}{\sum_j \mathbf{D}_{j,i}}$$

调整后的转移矩阵： $$\tilde{\mathbf{T}}_t[i,j] = \frac{\mathbf{T}[i,j] \cdot \mathbf{r}_t[j] \cdot \mathbf{v}_t[j]}{\sum_k \mathbf{T}[i,k] \cdot \mathbf{r}_t[k] \cdot \mathbf{v}_t[k]}$$

进度估计通过询问LMM每个步骤的完成度（0-9标度）得到。

UPDATE步：融合LMM预测与贝叶斯先验

最终信念通过LMM观测似然与predict先验的乘积得到：

$$\text{bel}_t(a_i) = \frac{1}{\mathcal{Z}} \cdot f_{\text{LMM}}(\mathbf{S}_t, \pi_{\text{VSG}})[i] \cdot \sum_{a_j \in \mathcal{A}} \tilde{\mathbf{T}}_t[j,i] \cdot \text{bel}_{t-1}(a_j)$$

其中 $\mathcal{Z}$ 为归一化因子。该公式优雅地将即时的LMM预测与历史积累的信念、步骤间依赖关系融合在一起。

损失函数 / 训练策略¶

无需任何训练。所有组件均基于预训练模型的零样本能力：InternVL2.5-8B用于观测和进度估计，LLaMA3-70B用于依赖矩阵提取。视频分割为2秒非重叠段。

实验关键数据¶

主实验¶

方法	设置	HT-Step R@1	CrossTask Avg.R@1	Ego4D R@1
VINA	离线+训练	39.1	44.8	-
NaSVA	离线+训练	53.1	46.7	29.1
MPTVA	离线+训练	-	47.9	-
VSLNet	离线+训练	-	-	24.3
NaSVA (在线)	在线+训练	46.1	-	24.2
BaGLM	在线+无训练	57.4	59.8	43.3

BaGLM在HT-Step/CrossTask/Ego4D上分别超NaSVA +4.3/+13.1/+14.2%。

消融实验：转移模型组件¶

配置	HT-Step	CrossTask	Ego4D
仅静态转移矩阵	55.9	58.0	42.1
+ 就绪度	57.0	58.8	42.0
+ 有效性	56.4	58.8	43.1
+ 就绪度 + 有效性	57.4	59.8	43.3

Oracle实验¶

配置	HT-Step	CrossTask	Ego4D
估计依赖 + 估计进度	57.4	59.8	43.3
Oracle依赖 + Oracle进度	62.6	66.9	82.2

Ego4D上Oracle设置提升38.9%，说明贝叶斯滤波框架本身极有效，改进进度估计和依赖估计会进一步大幅提升。

关键发现¶

零样本LMM（仅看当前段）已是VSG的强基线，超越需在HowTo100M上训练的专用方法
2秒段时长是最佳权衡：太短缺视觉线索，太长跨越多步骤
BaGLM在HT-Step和CrossTask上对所有LMM均有一致提升，但在Ego4D GoalStep上改进有限（视频更长、步骤描述更粗）
LLM选择（LLaMA-3.3-70B vs GPT-4.1-mini）对结果影响较小，说明框架对LLM选择鲁棒

亮点与洞察¶

贝叶斯滤波 + LMM的组合极其优雅：将经典概率推理与现代大模型能力完美结合
完全无训练 + 在线推理 + 超越训练型离线方法，实际部署优势巨大
步骤进度估计和依赖矩阵的动态转移模型是关键创新，为贝叶斯框架注入了任务特定知识
Oracle实验清晰指明了改进方向

局限与展望¶

依赖LLM估计步骤依赖关系的质量，对模糊或领域特异性强的步骤可能不准确
步骤进度估计依赖LMM的主观判断，精度有限
在Ego4D等长视频（平均28分钟）上改进不明显，长程依赖建模需加强
每个段需两次LMM调用（步骤预测 + 进度估计），实时性受限于LMM推理速度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 贝叶斯滤波+LMM的无训练在线范式完全原创
实验充分度: ⭐⭐⭐⭐⭐ 三数据集、四LMM、消融、Oracle分析、段时长分析
写作质量: ⭐⭐⭐⭐⭐ 数学建模清晰，从初步发现到方法设计的推进逻辑流畅
价值: ⭐⭐⭐⭐⭐ 为视频理解提供了无训练在线推理的新范式