BIMBA: Selective-Scan Compression for Long-Range Video Question Answering¶

会议: CVPR 2025
arXiv: 2503.09590
代码: https://sites.google.com/view/bimba-mllm
领域: 视频理解 / 长视频问答
关键词: 状态空间模型、Mamba、视频压缩、长视频QA、多模态大模型

一句话总结¶

本文提出 BIMBA，基于 Mamba selective scan 的时空 token 选择器，将长视频的 10万+ token 序列压缩 16 倍至 6400 个包含关键信息的 token，在 7 个长视频 VQA 基准上取得 SOTA。

领域现状：多模态大语言模型（MLLM）在视频理解上取得重要进展，但处理长视频（分钟/小时级）是核心挑战。以 LLaMA-3.2 为例，图像编码器每帧输出 1600~6400 个 token，128 帧会产生 20-80万 token，远超 LLM 处理能力。

现有痛点：(1) 空间/时间池化丢弃重要时空信息；(2) 卷积压缩缺乏长程依赖建模能力；(3) 自注意力计算量随序列长度平方增长，对长序列不可行；(4) Perceiver/Q-former 压缩虽高效但缺乏跨帧分析。

核心矛盾：长视频中大量帧高度冗余，但关键事件可能瞬间发生。需要选择性保留重要信息同时大幅压缩序列长度——这需要既能长程建模又计算高效的机制。

本文目标：设计高效的长视频 token 压缩模块，将 10万级 token 压缩到千级同时保留关键时空依赖。

切入角度：Mamba (S6) 的 selective scan 机制正好满足需求——线性计算复杂度、输入依赖的选择性保留、天然的长程建模能力。

核心 idea：用 Mamba 的 selective scan 作为时空 token 选择器，引入交错查询分布和双向扫描来适配视频的时空结构，实现 16 倍压缩且精度不降反升。

视频帧→预训练图像编码器→时空 token 序列（64帧 × 40×40 = 102,400 token）→BIMBA 时空 token 选择器→压缩 token（16×20×20 = 6,400）→LLM 解码器生成答案。

时空 Token 选择器:
- 功能：将大量冗余视频 token 压缩为少量信息密集的查询 token
- 核心思路：(a) 用3D自适应平均池化初始化少量视觉查询 \(Q\)（从 \(L\) 个输入 token 到 \(N\) 个查询，\(N \ll L\)）；(b) 将查询与时空 token 拼接成序列 \(Z' = [Z; Q]\)；(c) 应用 Mamba selective scan 层，让查询通过选择性状态空间模型从海量 token 中"吸收"关键信息；(d) 提取更新后的查询 \(Q'\) 传给 LLM。
- 设计动机：与池化不同，selective scan 可以根据输入内容动态决定保留什么丢弃什么，对冗余视频内容特别有效。与自注意力不同，计算复杂度线性增长。
交错查询分布（Interleaved Queries）:
- 功能：避免查询位置偏差
- 核心思路：传统做法把查询放在序列末尾，导致查询偏向视频后段的 token。本文将查询均匀交错分布在时空 token 之间，使查询能均匀地与视频各部分交互。
- 设计动机：有效消除位置偏差，使时空信息更均衡地传递给查询 token。
双向 Selective Scan:
- 功能：增强对2D/3D时空结构的捕获能力
- 核心思路：原始 Mamba 为1D NLP 序列设计，对视觉任务的空间结构不敏感。本文采用前向+后向双向扫描，使模型能从两个方向建模时空依赖。
- 设计动机：双向扫描在视觉 Mamba 中已被验证有效，可以更好捕获空间结构。

标准语言模型自回归损失。冻结图像编码器，训练 token 选择器 + LLM（LoRA）。可选：问题条件token选择（将问题 token 前置，让选择器参考问题上下文）。

7 个长视频 VQA 基准上取得 SOTA：

NExT-QA 数据集上消融（LLaMA 变体）：