Inference Compute-Optimal Video Vision Language Models¶

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: github/vvlm_inference_scaling
领域: 多模态VLM / 模型压缩
关键词: 推理计算优化, 视频VLM, 缩放定律, 帧数, 视觉token数, 模型大小

一句话总结¶

首次系统研究视频VLM推理时的计算预算最优分配问题：在固定推理FLOPs下，如何在语言模型大小(x_N)、帧数(x_T)和每帧视觉token数(x_V)三个维度间做最优权衡，通过大规模训练扫描（~100k A100小时）和参数化建模得出实用的分配策略。

背景与动机¶

视频VLM日益在工业级应用（推荐系统、内容审核）中部署，每天处理百万级视频。与训练不同，推理是持续的、大规模的，其FLOPs成本远超微调。关键设计参数——模型大小、帧数、每帧token数——在微调前就已固定，决定了推理成本和性能。此前研究要么只优化效率不考虑资源约束，要么忽视视觉编码器的计算成本，要么不考虑微调数据量的影响。

核心问题¶

给定固定推理计算预算c和微调数据量n，如何选择最优的(x_N, x_T, x_V)使任务性能最大化？

方法详解¶

整体框架¶

推理计算优化问题：x* = argmin_{x∈X, c(x)≤c} f(x,n)。通过大规模训练扫描收集经验数据点→拟合参数化性能模型→求解约束离散优化问题。

关键设计¶

完整的推理计算成本模型: c(x) = 2x_T(x_M·x_W + x_N·x_V)。关键区别：包含视觉模型的计算成本（如SoViT-400M处理768个特征），而非像之前工作那样只算LM成本。这在x_N和x_V较小时影响显著——视觉模型可能占总FLOPs的大部分。
add-interact参数化性能模型: 将任务误差建模为幂律加法形式加交互项：f(x,n) = Σ_k α_k·x_k^{-a_k} + Σ_k β_k·x_k^{b_k}·n^{-d} + ξ·n^{-d} + ε。交互项β_k·x_k^{b_k}·n^{-d}捕捉了缩放因子和数据量的交互效应——更多视频细节（更多帧/token）使数据更丰富，但也需要更多数据来充分利用。
大规模训练扫描: 系统组合不同设置训练模型:
x_N ∈ {0.5B, 1B, 3B, 8B}
x_T ∈ {1, 2, 4, 8, 16, 32}
x_V ∈ {1, 4, 9, 16, 36, 64, 144}
n ∈ 数据量的不同子集

关键发现¶

三个维度都有递减回报: 单独增加任何一个因子都有边际递减效应
联合缩放至关重要: 最优配置不是在某一维度上极端化，而是三个维度的平衡
任务特异性强: 不同任务的最优分配完全不同——不存在通用策略
数据量改变最优前沿: 更多微调数据倾向于增加x_T和x_V、减小x_N（数据充足时用更多视觉信息、更小模型更划算）
视觉编码器成本不可忽略: 忽略它会高估增加帧数的收益

实验关键数据¶

论文发现性结论为主（非传统SOTA打榜），关键 insight: - 在同等推理FLOPs下，compute-optimal配置可以比naive配置提升5-15%的任务性能 - 低推理预算下：倾向小模型+少帧+少token；高预算下三者同步增加 - 数据量从n到4n时，最优x_T和x_V通常增加，x_N通常不变或减小

亮点¶

全新问题视角: 从"推理计算最优"角度研究视频VLM，区别于此前只关注训练效率或性能
实用价值极高: 100k A100小时的投入换来的分配策略直接指导工业部署
严谨的建模: 参数化性能模型+模型选择+验证，方法论上类似Chinchilla的推理版
视觉编码器不容忽视: 纠正了此前工作忽视视觉编码器成本的疏忽

局限性 / 可改进方向¶

仅在LLaVA-like架构上验证，不确定是否适用于其他视频VLM（如Qwen2-VL的动态分辨率架构）
性能建模的参数化形式是手动选择的，可能不是最优的
仅考虑了3个缩放因子，未包含其他可能重要的因子（如vision encoder大小、训练策略等）
实验成本极高（100k A100小时），大多数研究者无法复现

与相关工作的对比¶

vs Chinchilla (Hoffmann et al.): Chinchilla研究训练计算最优，本文研究推理计算最优
vs Du et al. (2024): Du只看x_T vs x_V的trade-off，本文加入x_N且计入视觉编码器成本
vs Sophia (本批次): Sophia用稀疏注意力减少计算、帧剪枝减少输入——可以看作是在compute-optimal维度上的工程实现

启发与关联¶

这种"推理计算最优"的研究范式可以推广到任何多模态模型——如何在视觉分辨率、编码器大小和LLM大小间分配推理预算
与KV-Latent结合：降低x_V不仅减少KV cache，还释放推理预算给x_N或x_T
"数据量影响最优前沿"的发现意味着：部署时的最优配置会随着持续收集数据而变化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 在VLM领域首次系统性研究推理计算最优分配
实验充分度: ⭐⭐⭐⭐⭐ 100k A100小时的大规模训练扫描，方法论极其严谨
写作质量: ⭐⭐⭐⭐⭐ 数学建模清晰，与Chinchilla类比帮助理解
价值: ⭐⭐⭐⭐⭐ 对视频VLM的工业部署有直接指导意义