跳转至

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

会议: NeurIPS 2025
arXiv: 2506.05332
代码: Project Page
领域: 视频理解 / 多模态VLM
关键词: 长视频理解, Video-LMM, 记忆增强, 指令跟随数据集, 小时级视频

一句话总结

构建首个大规模小时级视频指令跟随数据集 VideoMarathon(9700小时、330万QA对、22种任务),并提出 Hour-LLaVA 模型,通过记忆仓库+遗忘机制+MemAug模块实现1-FPS下小时级视频的高效训练与推理,在四个长视频基准上全面领先同规模开源模型。

研究背景与动机

领域现状:近期 Video-LMM 在视频QA、视频摘要等任务上取得显著进展,但训练数据大多是短视频(平均不到1分钟),现有数据集如 LLaVA-Video-178K 的平均视频长度仅 0.6 分钟。

现有痛点:测试基准(如 LVBench 平均67分钟、Video-MME 平均17分钟)要求模型理解小时级长视频,但训练时只见过几分钟的短视频,存在严重的训练-测试长度不匹配。现有方法(如均匀采样64帧)在处理长视频时信息损失巨大。

核心矛盾:缺乏高质量的长视频指令跟随数据 + 现有模型无法高效处理小时级视频的海量token。GPU显存限制使得模型无法直接消费1-FPS采样下数千帧的全部视觉token。

本文目标(1)构建大规模长视频训练数据;(2)设计能在有限计算下利用完整视频上下文的模型架构。

切入角度:借鉴人类记忆系统——选择性保留和回忆关键信息、系统性丢弃冗余信息,设计记忆增强机制在压缩token与保留信息间取得平衡。

核心 idea:用分层视频描述pipeline生成大规模长视频QA数据,用记忆仓库缓存全量视频特征+遗忘压缩+交叉注意力增强,实现可学习的token压缩。

方法详解

整体框架

系统包含两大部分:(1)VideoMarathon 数据集——通过分层视频描述(clip→event→global)+ DeepSeek-V3 生成 330万QA对;(2)Hour-LLaVA 模型——视频编码器(SigLIP)以1-FPS提取特征→投影器(2层MLP)→遗忘机制(空间+时间压缩至1/16)→MemAug模块(4层Transformer,交叉+自注意力回忆)→LLM解码器(Qwen2-7B)生成回答。完整视频特征存入记忆仓库,压缩后的衰减token经MemAug增强后输入LLM。

关键设计

  1. VideoMarathon 数据集构建:

    • 从 Panda-70M、Ego4D、ActivityNet、YouCook2、MovieChat-1K 等5个来源收集28K长视频(3-60分钟),总时长约9700小时
    • 分层视频描述pipeline:先用 Qwen2VL-7B 对每个clip从时间性、空间性、物体、动作、场景、总结6个维度生成详细描述;再用 DeepSeek-V3 聚合为事件级和全局级描述
    • 基于分层描述生成覆盖22种任务(6大主题)的QA对,包含173万开放式QA和157万选择题
    • 设计动机:只有在大规模长视频上训练,模型才能显式学习长程依赖;实验证明 LLaVA-Video 即使用 VideoMarathon 训练也无法受益(因为稀疏采样无法学到长期模式)
  2. 遗忘机制 + MemAug模块:

    • 记忆仓库:1-FPS采样的全量视频token存入记忆仓库,模型始终可访问完整视频上下文
    • 遗忘机制:空间维度随机丢弃3/4 token(压缩比1/4),时间维度均匀丢弃3/4帧,总压缩比约1/16,得到"衰减视频token" \(\tilde{\mathbf{H}}_v\)
    • MemAug模块:4层Transformer块。交叉注意力中衰减token \(\tilde{\mathbf{H}}_v\) + 问题token \(\mathbf{H}_q\) 作为query,记忆仓库 \(\mathbf{H}_v\) 作为key/value,从完整上下文中按需检索被丢弃的信息。自注意力中问题信息流向视频token,赋予其问题导向性。公式:\(\hat{\mathbf{H}}_v = f_{\theta_M}(\tilde{\mathbf{H}}_v, \mathbf{H}_q | \mathbf{H}_v)\)
    • 设计动机:与手工设计的关键帧选择、问题引导压缩不同,MemAug是可学习的压缩方式,由最终next-token prediction loss端到端监督
  3. 三阶段训练:

    • Stage 1:图像-语言预训练(3B图文对,仅训练MemAug)
    • Stage 2:视频-语言适应(0.6M混合数据,全参数训练1个epoch)
    • Stage 3:视频指令微调(4.4M混合数据,含0.7M VideoMarathon长视频样本,冻结视觉编码器,长短视频比例3:1最优)

损失函数 / 训练策略

标准交叉熵自回归损失。学习率2e-5,cosine退火,AdamW优化器。Hour-LLaVA-7B 用 64 AMD MI300X GPU 训练。

实验关键数据

主实验

方法 参数量 TempCompass (11s) LongVideoBench (459s) Video-MME Long (2466s) LVBench (4037s)
GPT-4o - 70.9 66.7 65.3 48.9
LLaVA-Video-7B 7B 60.0 58.2 56.3 33.7
Apollo-7B 7B 60.0 56.0 60.0 37.1
Video-XL 7B 59.3 55.4 55.5 38.8
Hour-LLaVA-7B 7B 63.2 60.1 62.2 40.5

消融实验

配置 TempCompass LongVideoBench LVBench 说明
Hour-LLaVA (MemAug) 59.7 54.0 40.6 3B完整版
均匀压缩(无MemAug) 59.3 52.1 38.3 可学习 vs 均匀
关键帧压缩 59.1 52.0 38.9 可学习 vs 关键帧
问题引导压缩 56.0 51.0 37.5 最差——过早筛选丢失上下文
记忆库100% → <10% - - ~35 减少记忆库规模掉约5分

关键发现

  • MemAug 在所有基准上一致超越手工压缩,LVBench 上比最佳手工方法高约2分
  • LLaVA-Video 模型即使用 VideoMarathon 训练也无法受益于长视频数据——稀疏采样是根本瓶颈
  • 空间遗忘保留1/4 token后,MemAug在图像任务上与无压缩基线可比(MMStar 51.9 vs 52.8),验证了对Image-LMM token压缩的通用性
  • Hour-LLaVA-3B已超过半数7B模型,且在LVBench(平均视频超出训练最大长度)上展示超训练分布的泛化能力

亮点与洞察

  • 填补数据空白:首个大规模小时级视频指令跟随数据集,clip→event→global的三级描述策略巧妙解决了用大模型为长视频生成高质量QA的难题。可迁移到任何长视频标注场景。
  • 可学习压缩 vs 手工压缩:用统一实验框架对比了均匀/关键帧/问题引导三种策略,发现问题引导方法反而最差(过早的信息筛选丢失上下文),揭示了端到端学习的优势。
  • MemAug对Image-LMM的潜力:空间压缩消融显示1/4 token + MemAug即可匹配全token性能,暗示记忆增强可直接用于Image-LMM推理加速。

局限与展望

  • 训练数据完全由模型合成(Qwen2VL + DeepSeek-V3),含噪声和幻觉,未设计噪声鲁棒训练策略
  • 仅处理视频+文本模态,忽略音频信息
  • 评测以多选QA为主,无法全面衡量长视频理解能力
  • 最长视频60分钟,超长视频(完整电影2-3小时)的效果有待验证
  • 遗忘机制较朴素,可以探索基于内容重要性的自适应遗忘

相关工作与启发

  • vs LLaVA-Video: 64帧均匀采样无法从长视频数据中学习,Hour-LLaVA的记忆库+MemAug架构是关键差异
  • vs LongVU/Video-XL: 手工启发式压缩(关键帧选择、KV-cache检索),Hour-LLaVA用可学习MemAug在相同token预算下一致更优
  • vs LongVILA: 扩展上下文到2M但需大量计算资源和序列并行,Hour-LLaVA通过压缩+恢复更高效

评分

  • 新颖性: ⭐⭐⭐⭐ 数据集构建pipeline完整实用,MemAug设计合理但创新性适中
  • 实验充分度: ⭐⭐⭐⭐⭐ 四个基准、详尽消融(遗忘策略、数据混合、记忆规模、压缩方法对比)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ VideoMarathon填补了长视频训练数据的巨大空白,Hour-LLaVA证明了长视频训练的必要性

相关论文