跳转至

📹 视频理解

🧪 ICML2025 · 7 篇论文解读

FastCAV: Efficient Computation of Concept Activation Vectors for Explaining Deep Neural Networks

提出 FastCAV,通过计算概念样本激活的归一化均值向量来替代 SVM 训练提取概念激活向量(CAV),在理论上等价于 Fisher 判别分析的简化形式,实测加速高达 63.6 倍(平均 46.4 倍),同时保持与 SVM-CAV 相当的分类精度和下游解释质量。

Fine-Grained Captioning of Long Videos through Scene Graph Consolidation

提出 SGVC 框架,通过将视频各段的文本描述解析为场景图、用 Hungarian 算法迭代合并为统一图表示、再用轻量图到文本解码器生成视频级描述,以极低计算开销实现了超越 LLM-based 方法的零样本长视频描述性能。

MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition

提出 MoMa 框架,通过序列调制操作 (SeqMod) 将 Mamba 的线性复杂度 SSM 以 scale-bias 方式注入冻结的 CLIP Transformer,实现高效全时空动态建模,在多个视频识别基准上以更少计算量达到 SOTA 水平。

Parity Requires Unified Input Dependence and Negative Eigenvalues in SSMs

从理论上证明了线性SSM(如S4/Mamba)无法计算奇偶校验(parity)函数——即使允许输入依赖参数化——除非状态转移矩阵包含负特征值,为SSM的表达力瓶颈提供了精确的数学刻画。

REVOLVE: Optimizing AI Systems by Tracking Response Evolution in Textual Optimization

REVOLVE 通过跟踪 LLM 系统中响应在迭代过程中的"演化"趋势来指导优化,比 TextGrad 等基于即时反馈的方法更稳定高效,在提示优化、方案改进和代码优化上分别提升 7.8%、20.72% 和 29.17%。

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

ViLaMP 提出差分蒸馏 (Differential Distillation) 原则,通过层次化的帧级差分关键帧选择 (DKS) 和 patch 级差分特征融合 (DFM) 两种机制实现"混合精度"视频处理——关键帧保留全部视觉 token,非关键帧压缩为单个 token,成功在单张 A100 GPU 上处理长达 10K 帧(约 2.7 小时)的超长视频。

Unifying Specialized Visual Encoders for Video Language Models

MERV 提出了多编码器视频表示方法,将四种专长不同的视觉编码器(DINOv2、ViViT、SigLIP、LanguageBind)通过时空对齐和跨注意力融合整合到单一 VideoLLM 中,在视频推理基准上比基线 Video-LLaVA 提升最高 4.62%,并验证了不同编码器的互补专长。