Smooth Regularization for Efficient Video Recognition¶

会议: NeurIPS 2025
arXiv: 2511.20928
代码: GitHub
领域: 模型压缩
关键词: 视频识别, 平滑正则化, 高斯随机游走, 轻量级模型, 时序归纳偏置

一句话总结¶

提出一种基于高斯随机游走（GRW）的平滑正则化技术，通过对视频识别模型中间层嵌入施加时序平滑约束（惩罚高加速度变化），在轻量级模型上实现3.8%–6.4%的准确率提升，在相应FLOP约束下刷新Kinetics-600 SOTA。

研究背景与动机¶

视频识别模型虽然在学习时空表征方面取得了显著进展，但许多架构仍然面临过拟合或时序信息利用效率低下的问题。本文的核心洞察在于：真实视频内容通常呈现连续运动和渐进的外观变化，因此模型的内部表征也应该随时间平滑变化。

然而当前的视频模型并没有显式地利用这种时序平滑先验。对于大型网络，它们有足够的容量同时学习有意义的变化和噪声；但对于资源受限的轻量级网络，容量不足导致模型难以区分有意义的运动信号和嵌入空间中的噪声波动。因此，为轻量级模型注入时序平滑归纳偏置变得尤为重要。

作者通过一个精巧的"热身实验"直观说明了平滑性的价值：在一个简单的飞机旋转分类数据集上，没有平滑项的模型学到了混乱无结构的嵌入空间，而加入平滑正则化后，模型发现了一个内在的二维线性表征，每种旋转映射到特定方向，嵌入轨迹平滑且加速度低。

方法详解¶

整体框架¶

GRW-smoothing作为一个即插即用的正则化项添加到标准交叉熵损失中。它作用于模型中间层或最终层的逐帧嵌入，通过构造一个对比损失来同时实现帧序保持和平滑性约束。最终训练目标为： $$\mathcal{L} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{smooth}$$

关键设计¶

帧序对比损失：考虑归一化后的嵌入序列$Z = (\mathbf{z}_t)_{t=0}^{N-1}$，将其切分为长度$T$的子片段$Z^c$。构建一个对比损失，将正确的帧序与所有排列进行对比： $$\mathcal{L}_f(\varphi) = -\mathbb{E}_{X,c}\left[\log \frac{f(Z^c_{\text{correct}})}{\sum_{\pi \in S(1:T)} f(Z^c_\pi)}\right]$$ 这种帧序约束防止了退化解（所有帧映射到同一点虽然"最平滑"但无意义）。设计动机：简单最小化嵌入差异会导致表征坍缩，需要借助对比学习保持信息量。
高斯随机游走平滑先验：将嵌入的速度变化建模为高斯随机游走。定义速度$V^c = (\mathbf{z}_{t+1}^c - \mathbf{z}_t^c)$和加速度$A^c = (\mathbf{v}_{t+1}^c - \mathbf{v}_t^c)$，假设加速度服从i.i.d.标准正态分布$\mathbf{a}_t^c \sim \mathcal{N}(\mathbf{0}, I)$，则概率密度为： $$f(Z^c) = p(A^c) = \prod_{t=0}^{T-3} \mathcal{N}(\mathbf{a}_t^c)$$ 将此代入对比损失，使正确帧序（低加速度）获得比随机排列更高的概率。核心思路是：低加速度意味着运动更平滑。
速度缩放控制：引入额外项$\Omega(V^c) = \log \prod_{t} \mathcal{N}(\mathbf{v}_t^c)$控制速度的整体尺度，防止嵌入缩放导致的退化。最终平滑损失为： $$\mathcal{L}_{smooth} = -\mathbb{E}_{X,c}\left[\log \frac{p(A^c)}{\sum_\pi p(A^c_\pi)} + \alpha \Omega(V^c)\right]$$
应用位置：支持中间层平滑（全局池化+BN归一化后应用GRW）和最终层平滑（仿射变换归一化后应用GRW，再接1-2层Transformer）。实验发现最终层平滑效果更优。

损失函数 / 训练策略¶

平衡系数$\lambda = 0.1$，缩放因子$\alpha = 0.5$
GRW窗口覆盖0.5–1.0秒视频，$T=5$或$T=6$
$T \leq 7$时枚举全部$(T-1)!$排列，$T > 7$时采样$k=1000$个排列
在K600上从已有权重微调14个epoch，backbone学习率$[10^{-4}, 10^{-6}]$，Transformer头$[10^{-3}, 10^{-5}]$
计算开销极低：wall-clock时间仅增加约2%

实验关键数据¶

主实验——Kinetics-600 FLOP约束¶

模型	Top-1 (%)	GFLOPs	提升
MoViNet-A0	72.3	2.7	—
MoViNet-A0-S-GRW	78.4	2.7	+6.1
MoViNet-A1	76.7	6.0	—
MoViNet-A1-S-GRW	81.9	6.0	+5.2
MoViNet-A2	78.6	10.3	—
MoViNet-A2-S-GRW	83.3	11.3	+4.7
MoViNet-A3	81.8	56.9	—
MoViNet-A3-GRW	85.6	56.4	+3.8
MViTv2-B-32×3	85.5	1030	—

MoViNet-A3-GRW以56.4 GFLOPs达到85.6%准确率，与MViTv2-B-32×3相当但后者需要18.3倍FLOPs。

消融实验——K600内存约束¶

模型	Top-1 (%)	内存 (MB)	提升
MobileNetV3-S	61.3	29	—
MobileNetV3-S-GRW	67.3	30	+6.0
MoViNet-A0-S	72.0	53	—
MoViNet-A0-S-GRW	78.4	53	+6.4
MoViNet-A2-S	78.4	78	—
MoViNet-A2-S-GRW	83.3	78	+4.9

关键发现¶

所有模型一致提升3.8%–6.4%，且在FLOP和内存约束不变的前提下
平滑方法在越轻量的模型上提升越显著：MoViNet-A0-S提升6.4%，MoViNet-A3提升3.8%
$\lambda$值在较大范围内鲁棒，暗示平滑方向的梯度与分类似然的梯度天然对齐
GRW的计算开销可忽略不计，训练时间仅增加约2%

亮点与洞察¶

数学优雅：将时序平滑性建模为嵌入速度的高斯随机游走，既有物理直觉又有概率论支撑；使用对比损失避免退化解的思路很精巧
实用价值极高：作为即插即用的正则化项，无需修改架构、几乎无额外计算，对轻量级模型的提升却很显著
热身实验（飞机旋转）的可视化非常直观，清晰展示了平滑性如何帮助模型发现内在低维结构

局限与展望¶

仅在轻量级模型上验证，对大型模型的效果未知（作者认为大型模型容量足够可能不需要此先验）
仅在动作识别任务上测试，其他视频任务（检测、分割）的效果有待验证
$T$（时间窗口）的选择仍需手动调整
全排列枚举在$T$较大时计算量增长，虽然可采样但可能影响损失估计质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将随机游走理论引入视频表征正则化，数学建模新颖优雅
实验充分度: ⭐⭐⭐⭐ 多模型多数据集验证一致，消融充分，但仅限于轻量级模型
写作质量: ⭐⭐⭐⭐⭐ 热身实验引入精彩，数学推导清晰，图表质量高
价值: ⭐⭐⭐⭐⭐ 即插即用、零额外计算、一致提升，实际部署价值极高