LiVOS: Light Video Object Segmentation with Gated Linear Matching¶

会议: CVPR 2025
arXiv: 2411.02818
代码: uncbiag/LiVOS
领域: segmentation
关键词: video object segmentation, linear attention, gated linear matching, memory network, 4096p inference

一句话总结¶

提出 LiVOS——首个使用门控线性注意力替代 softmax 注意力进行内存匹配的轻量 VOS 网络，将时空注意力矩阵压缩为恒定大小的 2D 状态矩阵，实现任意长视频的恒定内存占用，并在 32G 消费级 GPU 上支持 4096p 推理。

研究背景与动机¶

领域现状: 半监督 VOS 主要由时空记忆（STM）网络驱动，通过 softmax 注意力在 query 帧与所有 memory 帧间进行像素级匹配。代表方法有 XMem、Cutie 等。

现有痛点: Softmax 匹配需要存储 \(\mathcal{O}(HW \times THW)\) 的注意力矩阵，空间复杂度关于视频长度线性增长、关于分辨率二次方增长。随着视频变长或分辨率提高，计算过慢或内存溢出。

核心矛盾: 固定大小的 memory bank 在遮挡、快速运动时会失败；降低分辨率则丢失细粒度掩码细节；两者都是因为 softmax 匹配的固有限制。

本文切入角度: 识别 softmax 匹配为核心瓶颈，从根本上替换匹配机制而非打补丁。

核心 idea: 将 softmax 注意力改写为线性注意力的递推形式，注意力矩阵退化为恒定大小的 2D 状态 \(\mathbf{S}_t \in \mathbb{R}^{C_k \times C_v}\)，并引入数据相关的门控矩阵增强选择性。

方法详解¶

整体框架¶

图像编码器（ResNet-50）提取 query 帧的 key
掩码编码器（ResNet-18）提取 memory 帧的 value
门控线性匹配（核心）: 用恒定大小的状态矩阵递推更新替代全量 softmax 匹配
结合 sensory memory（低级信息）和 object memory（高级语义）增强 readout
轻量掩码解码器输出分割结果

关键设计¶

1. 线性匹配——从 softmax 到递推状态 - 功能: 将 softmax 匹配 \(\mathbf{V}_{t+1} = \text{Softmax}(\mathbf{K}_{t+1}\mathbf{K}_{1:t}^T)\mathbf{V}_{1:t}\) 改写为核函数近似 \(\phi(\mathbf{K}_{t+1})\mathbf{S}_t\)。 - 核心思路: 利用矩阵乘法结合律，将 \(\sum_i \phi(\mathbf{K}_{t+1})\phi(\mathbf{K}_i)^T\mathbf{V}_i\) 重新分组为 \(\phi(\mathbf{K}_{t+1}) \cdot \sum_i \phi(\mathbf{K}_i)^T\mathbf{V}_i\)。定义状态 \(\mathbf{S}_t = \mathbf{S}_{t-1} + \phi(\mathbf{K}_i)^T\mathbf{V}_i\)，\(\mathbf{S}_t \in \mathbb{R}^{C_k \times C_v}\) 为恒定大小。核函数 \(\phi\) 使用行级 softmax。 - 设计动机: 状态 \(\mathbf{S}_t\) 是无关时空的 2D 矩阵，大小仅取决于特征维度（\(64 \times 256\)），与视频长度和分辨率无关。

2. 门控线性匹配（Gated Linear Matching） - 功能: 在状态更新中引入数据相关的遗忘门 \(\mathbf{G}_t\)，选择性保留或丢弃历史信息。 - 核心思路: \(\mathbf{S}_t = \mathbf{G}_t \odot \mathbf{S}_{t-1} + \phi(\mathbf{K}_i)^T\mathbf{V}_i\)。门 \(\mathbf{G}_t = \alpha_t \mathbf{1}^T\) 通过低秩参数化实现，\(\alpha_t \in (0,1)^{C_k}\) 由深度卷积 + 空间求和 + Sigmoid 从图像编码器特征提取。 - 设计动机: 纯线性匹配无选择机制，在长序列中性能退化；门控提供了类似 GRU/LSTM 的遗忘能力，在场景变化、遮挡等场景中能主动丢弃过时信息。

3. 外部记忆融合 - 功能: 复用 Cutie 的 sensory memory（元素加法融合低级时序信息）和 object memory（交叉注意力融合高级对象语义）。 - 核心思路: 线性匹配输出的 readout 依次与 sensory memory 和 object transformer 交互，补充恒定状态压缩丢失的信息。 - 设计动机: 恒定状态压缩了时空信息，外部记忆提供互补的高频和语义信息。

损失函数 / 训练策略¶

交叉熵 + soft dice loss 等权结合
AdamW 优化器，初始学习率 \(10^{-4}\)，batch size 16，权重衰减 0.001
每 batch 8 帧，裁剪到 480×480，125K 迭代训练
图像编码器学习率乘 0.1 降低过拟合，梯度裁剪 \(\tau=3\)
点采样监督（12544 个点），遵循 Cutie 的训练策略

实验关键数据¶

主实验¶

方法	STM?	MOSE J&F↑	DAVIS-17 val J&F↑	DAVIS-17 test J&F↑	YouTube-VOS 𝒢↑
RDE	✗	46.8	84.2	77.4	81.9
Cutie-small† (1帧)	✗	49.3	76.4	71.6	79.0
LiVOS（本文）	✗	64.8	85.1	-	-
Cutie-small	✓	62.2	87.2	84.1	86.2
Cutie-base	✓	64.0	88.8	84.2	86.1
XMem	✓	56.3	86.2	81.0	85.5

效率对比¶

指标	LiVOS vs STM 方法
GPU 内存节约	53%
长视频内存增长	恒定（vs softmax 线性增长）
分辨率内存增长	线性（vs softmax 二次方）
最大可推理分辨率	4096p（32G GPU）
CPU 延迟随帧数	恒定（vs softmax 线性增长）

关键发现¶

LiVOS 超越所有非 STM 方法并缩小与 STM 方法的差距：MOSE 64.8 vs Cutie-small 62.2，DAVIS 85.1 vs 87.2。
在长视频和高分辨率场景中匹配 STM 方法性能，同时节约 53% GPU 内存。
4096p 推理成为可能：STM 方法因 softmax 注意力在高分辨率下内存溢出，而 LiVOS 的恒定状态使其可在消费级 GPU 上处理。
门控机制显著提升长序列性能：在场景变化、遮挡等挑战场景中，门控状态能有效遗忘过时信息。

亮点与洞察¶

将 softmax→线性注意力的改造从文本/图像分类扩展到 VOS 这一视频内存密集型任务，具有示范意义
恒定大小状态矩阵的 insight 优雅：\(C_k \times C_v = 64 \times 256\) 即可压缩任意长视频的全部时空信息
门控线性匹配的低秩参数化设计简洁高效
为长时间高分辨率视频基础模型的发展铺平了道路

局限与展望¶

恒定状态存在信息压缩损失，在短视频标准精度上仍有差距
门控参数化采用最简单的低秩形式，可探索更丰富的参数化
未针对高分辨率视频优化训练（仅 480p 训练），4096p 是测试时泛化
多对象场景中为每个对象维护独立状态，对象数量过多时仍有开销
未探索与 Flash Attention 等硬件优化的组合

评分¶

新颖性: ⭐⭐⭐⭐ 首次将线性注意力应用于 VOS 内存匹配，门控机制设计合理
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 MOSE/DAVIS/YouTube-VOS/LVOS，含效率和高分辨率实验
写作质量: ⭐⭐⭐⭐ 从 softmax→线性→门控线性的推导过程清晰流畅
价值: ⭐⭐⭐⭐⭐ 解决了 VOS 领域的核心可扩展性瓶颈，开启高分辨率长视频处理新范式