Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding¶
会议: CVPR2026 arXiv: 2602.18977 代码: th-nesh/Frame2Freq 领域: 视频理解 关键词: 频域适配器, 参数高效微调, 图像-视频迁移, 细粒度动作识别, 快速傅里叶变换, Vision Foundation Model
一句话总结¶
提出 Frame2Freq——首个在频域进行时序建模的 PEFT 适配器族,通过 FFT 将冻结 VFM 的帧嵌入变换到频谱空间并学习频带级滤波,在五个细粒度动作识别基准上以 <10% 的可训练参数超越全量微调模型。
背景与动机¶
- 图像预训练骨干迁移到视频的核心痛点:现有时域适配器(卷积/注意力)只捕获静态图像线索和极快闪烁变化,忽略了中频运动信号,而中频段恰好承载了区分细粒度动作(如"开瓶"vs"关瓶")的关键信息。
- 频谱区分性分析揭示偏差:作者受 ANOVA 启发设计了 Frequency Discriminability Analysis,定量展示 ST-Adapter 等传统适配器将判别能量集中在低频和高频两端,中频段利用严重不足。
- 细粒度动作的频域特征天然明显:在 Diving48 上对视频做 3D FFT 后,不同翻腾次数/身体姿态呈现出截然不同的频谱模式(翻腾越多→高频能量越高,tuck vs pike→十字方向分量不同),这在 RGB 空间难以观察。
- 对称动作对的区分需求迫切:Drive&Act、IKEA-ASM 等数据集中大量存在"拿起"vs"放下"等近对称动作对,仅靠空间外观无法区分,必须精确捕获运动相位差异。
- 全量微调成本过高:VFM 参数量达上亿级别,全量微调不现实;而现有 PEFT 方法(AIM、DualPath、ST-Adapter)均在时域操作,未利用频域结构。
- 领域特定小数据集的泛化挑战:驾驶监控、家具组装、人机交互等场景数据量仅数千条,需要高效适配器在少量参数下获得强泛化能力。
方法详解¶
整体框架¶
在冻结的 ViT 骨干(CLIP/DINOv2)每个 Transformer 块之后插入轻量 Frame2Freq 适配器。输入视频 \(T\) 帧经 ViT 得到 patch 嵌入 \(X \in \mathbb{R}^{T \times N \times D}\),适配器通过 \(\text{FC}_{down} \to \text{频域/时域分支} \to \text{FC}_{up}\) 的瓶颈结构生成时序增强特征,残差加回骨干输出。最终逐帧 CLS 聚合后接线性分类头。
Frame2Freq-ST(短时频谱适配器)¶
- 对降维后的嵌入沿时间轴做 STFT(Hann 窗),得到时频联合表示 \(\tilde{X} \in \mathbb{C}^{B \times N \times F \times T' \times C_a}\)。
- 两个深度可分离 3D 卷积分别沿时间轴(\(\text{Conv}_{temp}\))和频率轴(\(\text{Conv}_{freq}\))精炼,捕获短时过渡和邻近频带关系。
- iSTFT 回到时域后经 \(\text{FC}_{up}\) 恢复维度,仅 3.5M 可训练参数。
- 适合动作尺度单一的领域特定数据集(Drive&Act、IKEA-ASM)。
Frame2Freq-MS(多尺度频谱适配器)¶
- 降维后将通道 对半拆分为频域分支 \(X_{freq}\) 和时域分支 \(X_{temp}\)。
- 频域分支:对 \(X_{freq}\) 在 \(K\) 个不同窗口大小 \(\{w_k\} = [T, T/2, T/4]\) 下分别做 FFT,每个尺度经共享深度卷积 \(\text{Conv}_{freq}\) 精炼后取平均,再 iFFT 回时域。
- 时域分支:\(X_{temp}\) 经 \((3\times1\times1)\) 卷积 \(\text{Conv}_{temp}\) 捕获短程时序连续性。
- 两分支拼接后经 \(\text{FC}_{up}\) 恢复,7.3M 可训练参数。
- 适合运动频率跨度大的复杂数据集(Diving48、SSv2)。
损失函数¶
标准交叉熵分类损失,无额外辅助损失设计。训练 60 epoch,均匀采样 16 或 32 帧。
实验关键数据¶
主实验结果¶
| 数据集 | 方法 | Backbone | 可训练参数 | Top-1 Acc |
|---|---|---|---|---|
| Diving48 | ST-Adapter | ViT-B/16 CLIP | 7M | 90.4% |
| Diving48 | Frame2Freq-MS | ViT-B/16 CLIP | 7.3M | 92.2% (+1.8) |
| Diving48 | ORViT (全量) | ViT-B/16 | 160M | 88.0% |
| SSv2 | ST-Adapter | ViT-B/16 CLIP | 14M | 69.5% |
| SSv2 | Frame2Freq-MS | ViT-B/16 CLIP | 14M | 70.4% (+0.9) |
| SSv2 | Frame2Freq-MS | ViT-L/14 CLIP | 19M | 72.1% |
| Drive&Act | ST-Adapter | DINOv2 | 7.1M | 75.2% |
| Drive&Act | Frame2Freq-ST | DINOv2 | 3.5M | 82.0% (+6.8) |
| IKEA-ASM | ST-Adapter | DINOv2 | 7.1M | 70.5% |
| IKEA-ASM | Frame2Freq-ST | DINOv2 | 3.5M | 78.1% (+7.6) |
| HRI-30 | ST-Adapter | DINOv2 | 7.1M | 85.5% |
| HRI-30 | Frame2Freq-MS | DINOv2 | 7.3M | 89.8% (+4.3) |
在对称动作对上优势尤为显著:Drive&Act 对称子集 +10.5%(66.4→77.1),IKEA-ASM 对称子集 +11.8%(68.5→80.3)。
消融实验¶
| 消融项 | 设置 | SSv2 | Diving48 |
|---|---|---|---|
| 仅频域卷积 | — | 67.5 | 90.9 |
| 仅时域卷积 | — | 69.1 | 90.4 |
| 频域+时域(Frame2Freq) | — | 69.7 | 92.2 |
| 多尺度窗口 [T] | 单尺度 | 69.0 | 91.5 |
| 多尺度窗口 [T,T/2,T/4] | 三尺度 | 69.7 | 92.2 |
| 多尺度窗口 [T,T/2,T/4,T/8] | 四尺度 | 69.4 | 91.0 |
| 适配器仅放 1-4 层 | 浅层 | 55.8 | 67.6 |
| 适配器放全部 1-12 层 | 全层 | 69.7 | 92.2 |
- 频域+时域互补效果最佳;三尺度窗口为最优配置,再加细粒度(T/8)反而饱和下降。
- 简单 mean/concat 融合优于 gated 和 learnable fusion,说明两分支已天然互补。
亮点¶
- 首创频域 PEFT 适配器:首次将 FFT/STFT 用于冻结 VFM 的图像→视频时序适配,开辟全新方向。
- 理论分析扎实:Frequency Discriminability Analysis(受 ANOVA 启发)定量揭示了现有适配器的频谱偏差,为方法设计提供了有力动机。
- 两种变体灵活适配:Frame2Freq-ST(3.5M 参数)适合单尺度领域数据,Frame2Freq-MS(7.3M)适合复杂多尺度场景,用户可按需选择。
- 参数效率极高:以 <10% 的可训练参数在 4/5 个数据集上超越全量微调模型。
- 对称动作识别突破:在最具挑战性的对称动作对上取得 +10% 以上的提升。
局限性 / 可改进方向¶
- SSv2 上增益最小(+0.9%),在粗粒度标签场景下频域建模优势有限。
- Frame2Freq-ST 在 Diving48 上仅 75.1%(单尺度难以处理多组成复合运动),两变体选择需要先验知识。
- 仅使用标准交叉熵损失,未探索频域对比损失或频带级监督信号。
- 当前仅验证了 ViT-B/16 和 ViT-L/14 两种骨干,未扩展到更大模型(如 ViT-G)。
- STFT 窗口大小和多尺度配置 \([T, T/2, T/4]\) 为手工设定,未做自适应学习。
- 未探索小波变换、多分辨率滤波器等更丰富的时频分析工具(作者在结论中也提到了此方向)。
与相关工作的对比¶
- vs ST-Adapter:Frame2Freq 直接构建在 ST-Adapter 框架之上,将时域深度卷积替换/增强为 FFT 分支,在所有基准上均有提升(+0.9~+7.6%)。
- vs AIM / DualPath:这些方法同为 PEFT 但仅在时域操作,Diving48 上落后 Frame2Freq-MS 约 3.5%。
- vs DTF-Transformer:DTF 也用了 1D FFT 滤波器做视频时序建模,但需要全量微调(88M 参数),Frame2Freq 以 7.3M 参数达到相当甚至更优的性能。
- vs VFPT:唯一使用频域的 PEFT 方法,但仅用于空间域适配,Frame2Freq 首次将频域推向时序维度。
- vs 全量微调(ORViT、Uniformerv2):Frame2Freq-MS 以不到 1/10 的参数量在 Diving48 上超出 ORViT 4.2%,在 SSv2 上与 Uniformerv2 持平。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 频域 PEFT 适配器为全新范式,频谱区分性分析提供了坚实的理论支撑
- 实验充分度: ⭐⭐⭐⭐⭐ — 5 个数据集、两种骨干、few-shot、多维度消融,实验设计全面
- 写作质量: ⭐⭐⭐⭐ — 动机清晰、分析深入,但公式符号偶有冗余
- 价值: ⭐⭐⭐⭐⭐ — 为 VFM 视频适配开辟频域新路线,对细粒度动作识别有即时实用价值