Unleashing Hour-Scale Video Training for Long Video-Language Understanding¶

会议: NeurIPS 2025
arXiv: 2506.05332
代码: Project Page
领域: 视频理解 / 多模态VLM
关键词: 长视频理解, Video-LMM, 记忆增强, 指令跟随数据集, 小时级视频

一句话总结¶

构建首个大规模小时级视频指令跟随数据集 VideoMarathon（9700小时、330万QA对、22种任务），并提出 Hour-LLaVA 模型，通过记忆仓库+遗忘机制+MemAug模块实现1-FPS下小时级视频的高效训练与推理，在四个长视频基准上全面领先同规模开源模型。

研究背景与动机¶

领域现状：近期 Video-LMM 在视频QA、视频摘要等任务上取得显著进展，但训练数据大多是短视频（平均不到1分钟），现有数据集如 LLaVA-Video-178K 的平均视频长度仅 0.6 分钟。

现有痛点：测试基准（如 LVBench 平均67分钟、Video-MME 平均17分钟）要求模型理解小时级长视频，但训练时只见过几分钟的短视频，存在严重的训练-测试长度不匹配。现有方法（如均匀采样64帧）在处理长视频时信息损失巨大。

核心矛盾：缺乏高质量的长视频指令跟随数据 + 现有模型无法高效处理小时级视频的海量token。GPU显存限制使得模型无法直接消费1-FPS采样下数千帧的全部视觉token。

本文目标（1）构建大规模长视频训练数据；（2）设计能在有限计算下利用完整视频上下文的模型架构。

切入角度：借鉴人类记忆系统——选择性保留和回忆关键信息、系统性丢弃冗余信息，设计记忆增强机制在压缩token与保留信息间取得平衡。

核心 idea：用分层视频描述pipeline生成大规模长视频QA数据，用记忆仓库缓存全量视频特征+遗忘压缩+交叉注意力增强，实现可学习的token压缩。

方法详解¶

整体框架¶

系统包含两大部分：（1）VideoMarathon 数据集——通过分层视频描述（clip→event→global）+ DeepSeek-V3 生成 330万QA对；（2）Hour-LLaVA 模型——视频编码器（SigLIP）以1-FPS提取特征→投影器（2层MLP）→遗忘机制（空间+时间压缩至1/16）→MemAug模块（4层Transformer，交叉+自注意力回忆）→LLM解码器（Qwen2-7B）生成回答。完整视频特征存入记忆仓库，压缩后的衰减token经MemAug增强后输入LLM。

关键设计¶

VideoMarathon 数据集构建:
- 从 Panda-70M、Ego4D、ActivityNet、YouCook2、MovieChat-1K 等5个来源收集28K长视频（3-60分钟），总时长约9700小时
- 分层视频描述pipeline：先用 Qwen2VL-7B 对每个clip从时间性、空间性、物体、动作、场景、总结6个维度生成详细描述；再用 DeepSeek-V3 聚合为事件级和全局级描述
- 基于分层描述生成覆盖22种任务（6大主题）的QA对，包含173万开放式QA和157万选择题
- 设计动机：只有在大规模长视频上训练，模型才能显式学习长程依赖；实验证明 LLaVA-Video 即使用 VideoMarathon 训练也无法受益（因为稀疏采样无法学到长期模式）
遗忘机制 + MemAug模块:
- 记忆仓库：1-FPS采样的全量视频token存入记忆仓库，模型始终可访问完整视频上下文
- 遗忘机制：空间维度随机丢弃3/4 token（压缩比1/4），时间维度均匀丢弃3/4帧，总压缩比约1/16，得到"衰减视频token" \(\tilde{\mathbf{H}}_v\)
- MemAug模块：4层Transformer块。交叉注意力中衰减token \(\tilde{\mathbf{H}}_v\) + 问题token \(\mathbf{H}_q\) 作为query，记忆仓库 \(\mathbf{H}_v\) 作为key/value，从完整上下文中按需检索被丢弃的信息。自注意力中问题信息流向视频token，赋予其问题导向性。公式：\(\hat{\mathbf{H}}_v = f_{\theta_M}(\tilde{\mathbf{H}}_v, \mathbf{H}_q | \mathbf{H}_v)\)
- 设计动机：与手工设计的关键帧选择、问题引导压缩不同，MemAug是可学习的压缩方式，由最终next-token prediction loss端到端监督
三阶段训练:
- Stage 1：图像-语言预训练（3B图文对，仅训练MemAug）
- Stage 2：视频-语言适应（0.6M混合数据，全参数训练1个epoch）
- Stage 3：视频指令微调（4.4M混合数据，含0.7M VideoMarathon长视频样本，冻结视觉编码器，长短视频比例3:1最优）

损失函数 / 训练策略¶

标准交叉熵自回归损失。学习率2e-5，cosine退火，AdamW优化器。Hour-LLaVA-7B 用 64 AMD MI300X GPU 训练。

实验关键数据¶

主实验¶

方法	参数量	TempCompass (11s)	LongVideoBench (459s)	Video-MME Long (2466s)	LVBench (4037s)
GPT-4o	-	70.9	66.7	65.3	48.9
LLaVA-Video-7B	7B	60.0	58.2	56.3	33.7
Apollo-7B	7B	60.0	56.0	60.0	37.1
Video-XL	7B	59.3	55.4	55.5	38.8
Hour-LLaVA-7B	7B	63.2	60.1	62.2	40.5

消融实验¶

配置	TempCompass	LongVideoBench	LVBench	说明
Hour-LLaVA (MemAug)	59.7	54.0	40.6	3B完整版
均匀压缩（无MemAug）	59.3	52.1	38.3	可学习 vs 均匀
关键帧压缩	59.1	52.0	38.9	可学习 vs 关键帧
问题引导压缩	56.0	51.0	37.5	最差——过早筛选丢失上下文
记忆库100% → <10%	-	-	~35	减少记忆库规模掉约5分

关键发现¶

MemAug 在所有基准上一致超越手工压缩，LVBench 上比最佳手工方法高约2分
LLaVA-Video 模型即使用 VideoMarathon 训练也无法受益于长视频数据——稀疏采样是根本瓶颈
空间遗忘保留1/4 token后，MemAug在图像任务上与无压缩基线可比（MMStar 51.9 vs 52.8），验证了对Image-LMM token压缩的通用性
Hour-LLaVA-3B已超过半数7B模型，且在LVBench（平均视频超出训练最大长度）上展示超训练分布的泛化能力

亮点与洞察¶

填补数据空白：首个大规模小时级视频指令跟随数据集，clip→event→global的三级描述策略巧妙解决了用大模型为长视频生成高质量QA的难题。可迁移到任何长视频标注场景。
可学习压缩 vs 手工压缩：用统一实验框架对比了均匀/关键帧/问题引导三种策略，发现问题引导方法反而最差（过早的信息筛选丢失上下文），揭示了端到端学习的优势。
MemAug对Image-LMM的潜力：空间压缩消融显示1/4 token + MemAug即可匹配全token性能，暗示记忆增强可直接用于Image-LMM推理加速。

局限与展望¶

训练数据完全由模型合成（Qwen2VL + DeepSeek-V3），含噪声和幻觉，未设计噪声鲁棒训练策略
仅处理视频+文本模态，忽略音频信息
评测以多选QA为主，无法全面衡量长视频理解能力
最长视频60分钟，超长视频（完整电影2-3小时）的效果有待验证
遗忘机制较朴素，可以探索基于内容重要性的自适应遗忘

评分¶

新颖性: ⭐⭐⭐⭐ 数据集构建pipeline完整实用，MemAug设计合理但创新性适中
实验充分度: ⭐⭐⭐⭐⭐ 四个基准、详尽消融（遗忘策略、数据混合、记忆规模、压缩方法对比）
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详细，图表丰富
价值: ⭐⭐⭐⭐⭐ VideoMarathon填补了长视频训练数据的巨大空白，Hour-LLaVA证明了长视频训练的必要性