跳转至

Inference Compute-Optimal Video Vision Language Models

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: github/vvlm_inference_scaling
领域: 多模态VLM / 模型压缩
关键词: 推理计算优化, 视频VLM, 缩放定律, 帧数, 视觉token数, 模型大小

一句话总结

首次系统研究视频VLM推理时的计算预算最优分配问题:在固定推理FLOPs下,如何在语言模型大小(x_N)、帧数(x_T)和每帧视觉token数(x_V)三个维度间做最优权衡,通过大规模训练扫描(~100k A100小时)和参数化建模得出实用的分配策略。

背景与动机

视频VLM日益在工业级应用(推荐系统、内容审核)中部署,每天处理百万级视频。与训练不同,推理是持续的、大规模的,其FLOPs成本远超微调。关键设计参数——模型大小、帧数、每帧token数——在微调前就已固定,决定了推理成本和性能。此前研究要么只优化效率不考虑资源约束,要么忽视视觉编码器的计算成本,要么不考虑微调数据量的影响。

核心问题

给定固定推理计算预算c和微调数据量n,如何选择最优的(x_N, x_T, x_V)使任务性能最大化?

方法详解

整体框架

推理计算优化问题:x* = argmin_{x∈X, c(x)≤c} f(x,n)。通过大规模训练扫描收集经验数据点→拟合参数化性能模型→求解约束离散优化问题。

关键设计

  1. 完整的推理计算成本模型: c(x) = 2x_T(x_M·x_W + x_N·x_V)。关键区别:包含视觉模型的计算成本(如SoViT-400M处理768个特征),而非像之前工作那样只算LM成本。这在x_N和x_V较小时影响显著——视觉模型可能占总FLOPs的大部分。

  2. add-interact参数化性能模型: 将任务误差建模为幂律加法形式加交互项:f(x,n) = Σ_k α_k·x_k^{-a_k} + Σ_k β_k·x_k^{b_k}·n^{-d} + ξ·n^{-d} + ε。交互项β_k·x_k^{b_k}·n^{-d}捕捉了缩放因子和数据量的交互效应——更多视频细节(更多帧/token)使数据更丰富,但也需要更多数据来充分利用。

  3. 大规模训练扫描: 系统组合不同设置训练模型:

  4. x_N ∈ {0.5B, 1B, 3B, 8B}
  5. x_T ∈ {1, 2, 4, 8, 16, 32}
  6. x_V ∈ {1, 4, 9, 16, 36, 64, 144}
  7. n ∈ 数据量的不同子集

关键发现

  1. 三个维度都有递减回报: 单独增加任何一个因子都有边际递减效应
  2. 联合缩放至关重要: 最优配置不是在某一维度上极端化,而是三个维度的平衡
  3. 任务特异性强: 不同任务的最优分配完全不同——不存在通用策略
  4. 数据量改变最优前沿: 更多微调数据倾向于增加x_T和x_V、减小x_N(数据充足时用更多视觉信息、更小模型更划算)
  5. 视觉编码器成本不可忽略: 忽略它会高估增加帧数的收益

实验关键数据

论文发现性结论为主(非传统SOTA打榜),关键 insight: - 在同等推理FLOPs下,compute-optimal配置可以比naive配置提升5-15%的任务性能 - 低推理预算下:倾向小模型+少帧+少token;高预算下三者同步增加 - 数据量从n到4n时,最优x_T和x_V通常增加,x_N通常不变或减小

亮点

  • 全新问题视角: 从"推理计算最优"角度研究视频VLM,区别于此前只关注训练效率或性能
  • 实用价值极高: 100k A100小时的投入换来的分配策略直接指导工业部署
  • 严谨的建模: 参数化性能模型+模型选择+验证,方法论上类似Chinchilla的推理版
  • 视觉编码器不容忽视: 纠正了此前工作忽视视觉编码器成本的疏忽

局限性 / 可改进方向

  • 仅在LLaVA-like架构上验证,不确定是否适用于其他视频VLM(如Qwen2-VL的动态分辨率架构)
  • 性能建模的参数化形式是手动选择的,可能不是最优的
  • 仅考虑了3个缩放因子,未包含其他可能重要的因子(如vision encoder大小、训练策略等)
  • 实验成本极高(100k A100小时),大多数研究者无法复现

与相关工作的对比

  • vs Chinchilla (Hoffmann et al.): Chinchilla研究训练计算最优,本文研究推理计算最优
  • vs Du et al. (2024): Du只看x_T vs x_V的trade-off,本文加入x_N且计入视觉编码器成本
  • vs Sophia (本批次): Sophia用稀疏注意力减少计算、帧剪枝减少输入——可以看作是在compute-optimal维度上的工程实现

启发与关联

  • 这种"推理计算最优"的研究范式可以推广到任何多模态模型——如何在视觉分辨率、编码器大小和LLM大小间分配推理预算
  • 与KV-Latent结合:降低x_V不仅减少KV cache,还释放推理预算给x_N或x_T
  • "数据量影响最优前沿"的发现意味着:部署时的最优配置会随着持续收集数据而变化

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 在VLM领域首次系统性研究推理计算最优分配
  • 实验充分度: ⭐⭐⭐⭐⭐ 100k A100小时的大规模训练扫描,方法论极其严谨
  • 写作质量: ⭐⭐⭐⭐⭐ 数学建模清晰,与Chinchilla类比帮助理解
  • 价值: ⭐⭐⭐⭐⭐ 对视频VLM的工业部署有直接指导意义