MambaMia: State-Space Hierarchical Compression for Hour-Long Video Understanding in Large Multimodal Models¶

会议: AAAI 2026
arXiv: 2506.13564
代码: https://github.com/naver-ai/mambamia
领域: 多模态大模型 / 视频理解
关键词: 长视频压缩, 状态空间模型, Mamba, 门控Patch聚合, 自适应帧采样

一句话总结¶

MambaMia 提出了基于双向 Mamba 的两阶段层次化视频 Token 压缩框架：门控 Patch 聚合（GPA）做空间-时间局部压缩 + 时间轴聚合器（TAA）利用 Mamba 的自适应步长 \(\Delta_t\) 做数据驱动的关键帧采样，将小时级视频压缩到仅 4.7K Token，在 LVBench 上达到 44.6 分超越 Qwen2-VL 和 mPLUG-Owl3。

研究背景与动机¶

领域现状：大型多模态模型（LMM）在图像和短视频理解上表现出色，但处理小时级长视频时面临严重的 Token 爆炸问题——数百帧的视频会产生数十万个 Token，远超标准模型和硬件的容量。
现有痛点：(1) 逐帧空间池化/Token 剪枝只解决单帧冗余，无法解决帧间时序累积问题；(2) 基于查询的选择方法依赖特定任务，牺牲了通用上下文建模能力；(3) 暴力扩展上下文窗口需要巨大计算资源，不适合学术/生产环境。
核心矛盾：长视频包含两类冗余——帧内空间冗余（大量相似 patch）和帧间时序冗余（连续帧内容高度相似），但同时也包含需要保留的细粒度关键事件。需要一个既能大幅压缩又不丹失关键信息的通用方案。
本文要解决什么？ 如何在标准硬件上高效压缩小时级视频的视觉 Token，同时保持理解性能？
切入角度：利用状态空间模型（Mamba）的线性复杂度处理超长序列，并巧妙复用 Mamba 内部的自适应步长 \(\Delta_t\) 作为帧重要性信号做自适应采样。
核心 idea 一句话：用双向 Mamba + 门控聚合做空间压缩，再复用 Mamba 步长做自适应时间帧筛选，实现层次化长视频压缩。

方法详解¶

整体框架¶

两阶段压缩流水线：输入 384 帧视频 → 视觉编码器提取每帧 576 个 patch Token（共约 221K Token）→ Stage 1: 时空压缩层（GPA） 将每帧压缩为 24 个 anchor Token（共约 9.2K）→ Stage 2: 时间轴聚合器（TAA） 进一步通过 delta 采样压缩到约 4.7K Token → 送入 LLM。

关键设计¶

门控 Patch 聚合（GPA）:
做什么：在双向 Mamba 处理后的序列中，利用插入的可学习 query anchor 聚合周围 patch 信息
核心思路：每行 24 个 patch 对应一个 query anchor。GPA 用 query-conditioned 加权池化聚合相邻 patch：\(\boldsymbol{\alpha} = \text{softmax}(\mathbf{W}_\alpha \mathbf{q} + \mathbf{b}_\alpha)\)，\(\mathbf{a} = \sum_i \alpha_i \mathbf{x}_i\)。然后用门控机制自适应混合：\(\mathbf{f} = (1-g)\mathbf{q} + g \cdot \mathbf{a}\)，其中 \(g = \sigma(\mathbf{W}_g \mathbf{q} + b_g)\)
设计动机：\(g \approx 0\) 时保留 query 自身信息（状态空间上下文），\(g \approx 1\) 时吸收局部 patch 信息。比 BIMBA 使用的 3D 平均池化更灵活，消融显示 GPA 带来约 7% 的平均提升
时间轴聚合器（TAA）+ Delta 采样:
做什么：沿时间轴建模帧间依赖，并利用 Mamba 自适应步长 \(\Delta_t\) 做数据驱动的关键帧筛选
核心思路：单向 Mamba 处理帧级 anchor 序列，其内部 \(\Delta_t = \text{softplus}(\mathbf{W}_\Delta \mathbf{f}_t + \mathbf{b}_\Delta)\) 是端到端学习的。将 \(\Delta_t\) 解释为帧重要性分数——\(\Delta_t\) 大的帧是模型认为更重要的帧。用累积 delta 采样算法：累积 \(\Delta_t\)，超过阈值 \(\delta_{\text{thresh}}\) 时选中该帧并重置累积器。默认保留约 50% 帧（384→192）
设计动机：巧妙复用 SSM 内部的 \(\Delta_t\) 而非额外训练选择器——这个步长本来就反映了输入的信息量（大 \(\Delta_t\) = 更大状态更新 = 更多新信息）。可视化显示 \(\Delta_t\) 峰值与场景切换/关键事件对齐
双向 Mamba 时空压缩器:
做什么：在 GPA 之前处理整个时空 Token 序列，共享空间和时间信息
核心思路：3 层双向 Mamba2 块处理约 230K Token 的序列。双向设计使每个 Token 能看到前后上下文
设计动机：用单向 Mamba 替换双向会下降约 1.7 分，说明双向建模对时空特征的共享很重要

训练策略¶

三阶段 LLaVA 风格训练：图像理解 → 模块对齐（仅训练压缩层）→ 视频指令微调（解冻 LLM）。训练 128 帧，推理 384 帧。Delta 采样仅在推理时使用。压缩模块约 247M 参数。

实验关键数据¶

主实验 — 长视频 Benchmark¶

模型	LLM	Max Token	LVBench	MLVU	VideoMME	VNBench
Qwen2-VL	Qwen2-7B	-	42.0	64.2	55.6	33.9
LLaVA-Video	Qwen2-7B	12.5K	43.8	70.8	63.3	37.0
mPLUG-Owl3	Qwen2-7B	-	43.5	-	53.5	-
MambaMia	Qwen2-7B	4.7K	44.6	68.0	58.3	41.5

消融实验 — 压缩模块设计¶

配置	GPA	TAA	LVBench	MLVU	MME	Avg
BIMBA (3D pool)	✗	✗	35.3	53.8	47.3	45.4
+GPA	✓	✗	41.1	62.4	53.2	52.2
+GPA+TAA (Full)	✓	✓	41.1	64.0	55.7	53.6

关键发现¶

仅 4.7K Token 即可达到与使用 12.5K Token 的 LLaVA-Video 可比的性能，Token 效率提升约 2.6 倍
GPA 替换 3D 平均池化带来约 7 分的平均提升——可学习的门控聚合远好于固定池化
Delta 采样比均匀采样在 LVBench 上高 1.2 分（44.6 vs 43.4），统计显著（p=0.047）
即使使用 Mamba 作为 LLM 骨干也需要专门的压缩——vanilla Mamba LLM 性能远低于有压缩的版本
性能在 384 帧时饱和，更多帧无额外收益
VNBench（needle-in-a-video-haystack）上表现优异（41.5），说明压缩不会丢失关键细粒度信息

亮点与洞察¶

复用 Mamba \(\Delta_t\) 作为帧重要性信号：最巧妙的设计——SSM 步长本身就编码了输入信息量，无需额外的重要性预测器。这个思路可以推广到任何使用 SSM 的序列处理场景
LLM 前的模块化压缩：与 VAMBA（在 LLM 内压缩）不同，MambaMia 在 LLM 之前独立压缩，保持了模块化和轻量性
严谨的实验方法论：强调 from-scratch 训练、控制变量对比、多随机种子验证、统计检验——实验设计值得学习

局限性 / 可改进方向¶

384 帧时性能饱和，说明压缩层可能存在信息瓶颈——更多帧但更好的压缩策略值得探索
当前 GPA 的 query conditioned pooling 只看 query token，没有 content-aware attention（为了效率），可能丢失 patch 间的关系
\(\delta_{\text{thresh}}\) 是手动设定的，可以改为自适应阈值
仅测试了 7B 模型，对更大规模 LLM 的效果待验证
训练时用均匀采样、推理用 delta 采样，这种 train-test mismatch 可能限制性能

评分¶

新颖性: ⭐⭐⭐⭐ 复用 \(\Delta_t\) 做帧采样很巧妙，GPA 设计也有新意
实验充分度: ⭐⭐⭐⭐⭐ 7 个 benchmark、5 种压缩对比、多随机种子统计检验、成本分析，极其详尽
写作质量: ⭐⭐⭐⭐⭐ 方法描述精确，附录 13 节覆盖所有细节，可复现性极强
价值: ⭐⭐⭐⭐⭐ 4.7K Token 处理小时级视频对社区有重大实用价值