Lattice Boltzmann Model for Learning Real-World Pixel Dynamicity¶

会议: NeurIPS 2025
arXiv: 2509.16527
代码: 项目主页
领域: video_understanding
关键词: point tracking, online tracking, lattice Boltzmann, real-time, object tracking

一句话总结¶

受流体力学中格子玻尔兹曼方法启发，提出 LBM（Lattice Boltzmann Model）用于在线实时像素跟踪，将视频像素建模为流体格子并通过碰撞-流式过程求解运动状态，以 18M 参数实现 SOTA 在线跟踪性能且可在边缘设备上实时运行。

研究背景与动机¶

离线/半在线方法的实际局限：主流点跟踪方法（TAPIR、CoTracker、LocoTrack）要求完整视频或时间窗口输入，导致高内存占用、不可避免的延迟、无法即时响应新出现像素、以及隐私/存储风险。
时空完整性依赖是根本瓶颈：离线方法依赖双向时序优化，半在线方法依赖多次迭代——LocoTrack 从 1 次迭代到 4 次迭代吞吐量下降超 60%。
边缘设备部署需求：机器人操控、医学视觉等应用需要在资源受限的嵌入式设备上实时推理。
开放世界物体跟踪的脆弱性：传统 MOT 将目标作为整体实体，在目标变形、自遮挡和快速运动时性能急剧下降。

方法详解¶

理论基础：格子玻尔兹曼方法¶

经典 LBM 将流体离散为格子，分布函数 \(\mathbf{f}\) 经历碰撞和流式过程：

\[\mathbf{f}(\mathbf{x}, t) = \sum_i [f_i(\mathbf{x} - \mathbf{c}_i \Delta t, t - \Delta t) + \Omega_i(\mathbf{x} - \mathbf{c}_i \Delta t, t - \Delta t)]\]

其中 \(\mathbf{c}_i\) 为第 \(i\) 方向离散速度，\(\Omega\) 为碰撞算子描述向平衡分布的松弛。求解后得到密度和速度：

\[\rho(\mathbf{x},t) = \sum_i f_i(\mathbf{x},t), \quad \rho \mathbf{u}(\mathbf{x},t) = \sum_i \mathbf{c}_i f_i(\mathbf{x},t)\]

点跟踪的 LBM¶

给定图像 \(\mathbf{I} \in \mathbb{R}^{3 \times H \times W}\) 和 \(N\) 个查询点 \(\mathbf{q} \in \mathbb{R}^{N \times 2}\)，估计后续帧中的位置 \(\mathbf{p} \in \mathbb{R}^{N \times 2}\) 和可见性 \(\mathbf{v} \in \mathbb{R}^N\)。

视觉编码：使用 ImageNet 预训练的 ResNet18 前三层，所有特征图上采样到 stride-4 后拼接，得到 \(\mathbf{o} \in \mathbb{R}^{d \times H/4 \times W/4}\)。设计以效率为优先。

分布初始化：对查询点进行双线性采样：\(\mathbf{f}_{init} = \text{BilinearSample}(\mathbf{o}, \mathbf{q}) \in \mathbb{R}^{N \times d}\)

分布预测（Predict）：不同于经典 LBM 使用固定邻域，LBM 使用可学习邻域 \(\delta\) 计算碰撞交互：

\[\mathbf{f}(x, t | \delta) = \mathbf{f}(x, t - \Delta t | \delta) + \Omega(x, t - \Delta t | \delta)\]

碰撞算子 \(\Omega\) 通过可变形注意力实现。时序上下文扩展至 \(N_s\) 步历史，维护流式分布 \(\mathbf{f}_s\) 和碰撞分布 \(\mathbf{f}_c\)：

\[\mathbf{f} = \phi_c(\phi_s(\mathbf{f}_{init}, \mathbf{f}_s), \mathbf{f}_c)\]

其中 \(\phi_s, \phi_c\) 为交叉注意力模块。

分布更新（Update）：计算像素分布与视觉特征的相关图，选取 top-\(k\) 响应作为参考点 \(\mathbf{r}\)，通过可变形注意力 \(\psi\) 更新分布：\(\psi(\mathbf{f}, \mathbf{o}, \mathbf{r})\)。

多层 Predict-Update Transformer：堆叠多层，每层包含预测+更新步骤。随层数增加参考点逐渐减少，最终层仅保留一个确定性参考点 \(\mathbf{r}_{last}\)。

输出头：跟踪头预测偏移 \(\Delta \mathbf{p} = \mathcal{H}_{track}(\mathbf{f}, \mathbf{o}, \mathbf{r}_{last})\)，可见性头预测置信度和可见性 \(\{\rho, \mathbf{v}\} = \mathcal{H}_{vis}(\mathbf{f}, \mathbf{o}, \mathbf{r}_{last})\)。

损失函数¶

\[\mathcal{L} = \lambda_{cls} \mathcal{L}_{cls} + \mathcal{L}_{reg} + \mathcal{L}_{vis} + \mathcal{L}_{conf}\]

\(\mathcal{L}_{cls}\)：相关图的交叉熵损失（每层）
\(\mathcal{L}_{reg}\)：偏移的 L1 损失（仅可见点）
\(\mathcal{L}_{vis}\)：可见性交叉熵
\(\mathcal{L}_{conf}\)：置信度交叉熵（以 \(\|\mathbf{p} - \mathbf{p}_{gt}\| < 8\) 为正例）

物体跟踪的 LBM¶

将目标分解为细粒度像素集合，通过像素跟踪建立物体关联： - 初始化：在检测框内随机采样 \(N\) 个像素 - 匹配：预测像素位置/可见性后，评估预测像素与新帧检测框内像素的空间对应 - 动态更新：持续在框外的像素被剔除（outlier pruning），在当前框内补充新像素（inlier replenishment），维持鲁棒表示

实验¶

表1：真实世界点跟踪性能（TAP-Vid DAVIS / Kinetics / RoboTAP）¶

模型	参数	类型	DAVIS AJ↑	DAVIS \(\delta_{avg}^x\)↑	DAVIS OA↑	Kinetics AJ↑
TAPIR	31M	离线	56.2	70.0	86.5	49.6
LocoTrack	12M	离线	62.9	75.3	87.2	52.9
CoTracker3	25M	窗口在线	64.5	76.7	89.7	54.1
Track-On	49M	在线	65.0	78.0	90.8	53.9
LBM	18M	在线	65.1	77.5	89.5	53.4

LBM 以仅 18M 参数达到 SOTA 在线性能（DAVIS AJ 65.1），仅为 Track-On 参数量的 37%，同时超越大多数离线和窗口在线方法。

边缘设备效率¶

在 NVIDIA Jetson Orin NX Super 上：LBM 达到 14.3 FPS 实时推理，速度是 Track-On 的 3.9 倍。

表2：开放世界物体跟踪（TAO 验证集）¶

模型	额外训练	TETA↑	LocA↑	AssocA↑
MASA	是	37.1	51.8	35.8
NetTrack	否	36.1	50.2	31.0
LBM	否	37.4	51.7	35.1

LBM 无需物体跟踪领域数据训练，即可达到 SOTA 水平（TETA 37.4），超越需要额外训练的 MASA。

BFT 和 OVT-B 数据集¶

LBM 在 BFT 上 OWTA 达 50.3、在 OVT-B 上 TETA 达 41.2，均为无额外训练方法中的最优。

亮点¶

物理类比巧妙：将像素运动建模为流体格子的碰撞-流式过程，理论类比清晰且工程实现高效
极致效率：18M 参数 + 边缘设备实时推理（14.3 FPS），在所有在线方法中参数效率最高
多层级使用统一框架：同一 LBM 既做点跟踪又做物体跟踪，通过像素分解和动态剪枝无缝衔接
无需训练即可迁移：在 TAO/BFT/OVT-B 等物体跟踪数据集上零样本超越专门训练的方法

局限性¶

在线方法的固有限制：无法利用未来帧信息进行双向优化，在严重遮挡恢复上可能弱于离线方法
ResNet18 编码器容量有限：为效率选择轻量编码器，在复杂纹理场景下特征表达力可能不足
TAP-Vid Kinetics 上略低于 Track-On：AJ 53.4 vs 53.9，说明在更多样的视频场景下仍有改进空间
固定历史长度 \(N_s\)：时序上下文窗口固定，对极长遮挡的适应性可能受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从流体力学引入格子玻尔兹曼类比，在线跟踪范式新颖
实验充分度: ⭐⭐⭐⭐ — 覆盖点跟踪和物体跟踪两大任务 + 边缘设备效率测试
写作质量: ⭐⭐⭐⭐ — 物理类比阐述清晰，框架图直观
价值: ⭐⭐⭐⭐⭐ — 为实时在线跟踪提供了高效且统一的解决方案