Frequency Dynamic Convolution for Dense Image Prediction¶
会议: CVPR 2025
arXiv: 2503.18783
代码: https://github.com/Linwei-Chen/FDConv
领域: 分割
关键词: 动态卷积, 频率域, 密集预测, 分割, 目标检测
一句话总结¶
FDConv 从频率域角度重新设计动态卷积,通过傅里叶不相交权重(FDW)在不增加参数的前提下构建频率多样的卷积核,结合核空间调制(KSM)和频带调制(FBM)实现精细的频率自适应,仅增加 3.6M 参数即超越需要 65-90M 额外参数的现有动态卷积方法。
研究背景与动机¶
领域现状:动态卷积(Dynamic Convolution)通过学习多组并行权重并用注意力机制进行线性组合,实现输入自适应的权重选择,在目标检测和分割等密集预测任务上展现了良好性能。代表方法包括 CondConv、DY-Conv、ODConv 等。
现有痛点:现有动态卷积方法的多组并行权重在频率响应上高度相似。作者的分析揭示 ODConv 的 4 组权重余弦相似度超过 0.88,t-SNE 可视化显示滤波器紧密聚集。这意味着虽然参数量增加了 4 倍,但实际上学到的频率信息高度冗余,模型的频率自适应能力有限。
核心矛盾:传统动态卷积在空间域学习多组权重,因为没有显式的频率约束,优化过程自然收敛到相似的频率响应——参数代价高但多样性低。低频信息有助于抑制噪声,高频信息捕捉边界和细节,缺乏频率多样性限制了模型自适应提取不同频率特征的能力。
本文目标 (1) 如何在不增加参数的前提下构建频率响应多样的卷积权重?(2) 如何让卷积自适应地在空间维度和频率维度上调节频率响应?
切入角度:作者观察到在傅里叶域,不同频率分量对应不同的空间模式。如果将参数按频率索引分组,每组只包含不相交的频率分量,那么由这些分组经 iDFT 变换得到的权重必然具有不同的频率响应——这是由数学性质保证的。
核心 idea:在傅里叶域将固定参数预算按频率索引不相交分组,通过 iDFT 构建频率多样的卷积权重,并以核空间调制和频带调制增强频率自适应能力。
方法详解¶
整体框架¶
FDConv 由三个核心模块组成:(1) Fourier Disjoint Weight (FDW) 在傅里叶域将参数按频率分组,构建具有不同频率响应的多组权重;(2) Kernel Spatial Modulation (KSM) 在核空间级别动态调制每个滤波器元素的频率响应;(3) Frequency Band Modulation (FBM) 在频率域将权重分解为不同频带,实现空间变化的频率调制。FDConv 可以直接替换标准卷积层集成到 ResNet、ConvNeXt、Swin Transformer 等多种架构中。
关键设计¶
-
Fourier Disjoint Weight (FDW, 傅里叶不相交权重):
- 功能:用固定的参数预算 \(k \times k \times C_{in} \times C_{out}\) 构建 \(n > 10\) 组频率响应多样的权重,而传统方法需要 \(n\) 倍参数且仅能生成少量(\(n < 10\))相似权重
- 核心思路:将参数重塑为 \(\mathbf{P} \in \mathbb{R}^{kC_{in} \times kC_{out}}\),每个参数对应一个傅里叶索引 \((u,v)\)。按索引的 \(L_2\) 范数从低频到高频排序,均匀分为 \(n\) 个不相交组。每组参数经 iDFT 变换到空间域,再裁剪为 \(k \times k\) 的 patches 并重组为标准权重张量。由于每组只包含特定频段的傅里叶系数,变换后的权重必然具有不同的频率响应(余弦相似度为 0),然后通过注意力系数线性组合。
- 设计动机:传统方法在空间域学习权重无法保证频率多样性。FDW 利用傅里叶变换的数学性质从根本上解决了这个问题:不相交的频率索引 → 不同的频率响应。且实际参数数目不变,只是对同一组参数做了不同的频率分片。
-
Kernel Spatial Modulation (KSM, 核空间调制):
- 功能:对每个权重中的每个滤波器元素进行独立的动态调制,精细调节频率响应
- 核心思路:预测一个密集调制矩阵 \(\alpha \in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}\),对权重逐元素调制。包含两个分支:局部通道分支用轻量 1D 卷积捕捉局部通道信息,预测完整的密集调制矩阵;全局通道分支用全连接层捕捉全局信息,预测输入通道、输出通道、核空间三个维度的稀疏调制值。两分支融合得到最终调制矩阵。
- 设计动机:FDW 的权重级混合(Eq.1)太粗糙,无法独立调整每个 \(k \times k\) 滤波器的频率响应。KSM 提供了逐元素的细粒度控制。用 1D 卷积替代全连接层大幅降低了预测密集矩阵的参数开销。
-
Frequency Band Modulation (FBM, 频带调制):
- 功能:将卷积权重分解为不同频带,对每个频带在不同空间位置独立调制,实现空间变化的频率自适应
- 核心思路:在频率域用二值 mask \(\mathcal{M}_b\) 将权重的频率响应分解为 \(B\) 个频带(默认 4 个,按 octave 划分:\(\{0, 1/16, 1/8, 1/4, 1/2\}\))。利用卷积定理在频率域做卷积(点乘),避免空间域理想滤波器无限支撑的问题。对每个频带的输出用标准卷积+sigmoid 预测空间调制图 \(\mathbf{A}_b \in \mathbb{R}^{h \times w}\),最终输出 \(\mathbf{Y} = \sum_{b=0}^{B-1} \mathbf{A}_b \odot \mathbf{Y}_b\)。由对偶性,分解核频带等价于分解特征频带。
- 设计动机:FDW 和 KSM 都是空间不变的(权重在整个特征图上共享),但自然图像中不同空间区域需要不同的频率处理——背景需要抑制高频噪声,边界需要保留高频细节。FBM 让频率响应可以随空间位置动态变化,实现了真正的内容自适应频率调制。
损失函数 / 训练策略¶
FDConv 作为即插即用模块,遵循下游任务的标准训练策略。权重数目 \(n\) 默认设为 64。训练沿用各原始框架的设置(如 Mask R-CNN 使用 1x schedule 训练 12 epochs)。
实验关键数据¶
主实验¶
| 模型/框架 | 方法 | 参数增量 | AP_box | AP_mask |
|---|---|---|---|---|
| Faster R-CNN/R50 | Baseline | - | 37.2 | - |
| Faster R-CNN/R50 | +CondConv (8×) | +90.0M | 38.1 | - |
| Faster R-CNN/R50 | +ODConv (4×) | +65.1M | 39.2 | - |
| Faster R-CNN/R50 | +FDConv | +3.6M | 39.4 | - |
| Mask R-CNN/R50 | Baseline | - | 39.6 | 36.4 |
| Mask R-CNN/R50 | +KW (4×) | +76.5M | 42.4 | 38.9 |
| Mask R-CNN/R50 | +FDConv | +3.6M | 42.4 | 38.6 |
| UPerNet/R50 | Baseline | - | mIoU 40.7 | - |
| UPerNet/R50 | +ODConv (4×) | +65M | mIoU 43.3 | - |
| UPerNet/R50 | +FDConv | +4M | mIoU 43.8 | - |
消融实验¶
| 架构/方法 | 额外参数 | AP_box | AP_mask |
|---|---|---|---|
| ConvNeXt-T + KW | +4M | 44.8 | 40.6 |
| ConvNeXt-T + FDConv | +3M | 45.2 | 40.8 |
| Swin-T + FDConv | +3M | 44.5 | 40.5 |
| Mask2Former-R50 | - | mIoU 79.4 | - |
| Mask2Former-R50 + FDConv | - | mIoU 80.4 | - |
| MaskDINO-Swin-L† + FDConv | - | mIoU 57.2 (+0.5) | - |
关键发现¶
- 参数效率极高:FDConv 仅增加 3.6M 参数即达到甚至超越 CondConv (+90M)、ODConv (+65.1M)、KW (+76.5M) 的性能,参数效率提升约 20 倍
- 频率多样性是关键:ODConv 的 4 组权重余弦相似度 >0.88,FDConv 为 0——这直接转化为更好的表征能力
- FBM 可视化显示高频调制值集中在物体边界,低频调制值集中在物体内部,符合直觉且确认了空间变化频率调制的有效性
- FDConv 具有良好的跨架构泛化性,可无缝集成到 CNN(ResNet, ConvNeXt)和 Transformer(Swin)架构中
亮点与洞察¶
- "用相同参数制造多样性"的核心思想极为优雅——不是增加参数,而是在傅里叶域对同一参数做不同频率切片,由数学性质保证多样性。这个思路可推广到任何需要多样化基函数的场景
- 卷积定理的巧妙应用:在频率域做卷积避免了空间域理想滤波器的无限支撑问题,同时利用对偶性证明分解核频带等价于分解特征频带,提供了实现灵活性
- FBM 的空间变化频率调制弥合了动态卷积(空间不变权重)和可变形卷积(空间变化采样)之间的差距
局限与展望¶
- FBM 引入了额外的频率域计算(FFT 和 iFFT),增加了 1.8G FLOPs,在实时推理场景中可能不可忽视
- 频带数目 \(B=4\) 和频率划分阈值是手动设定的,可考虑自适应学习
- 仅在视觉任务上验证,可探索在音频、信号处理等其他频率敏感领域的应用
- 与可变形卷积的组合值得探索——FDConv 解决了频率自适应但采样位置固定
相关工作与启发¶
- vs ODConv: ODConv 在空间域学习 4 组权重并用通道/滤波器/空间三维注意力调制,但权重频率响应高度相似。FDConv 从频率域切入,用更少参数实现了更好的多样性和性能
- vs KW: KW 通过将权重分解为可共享的小单元来降低参数,但本质上仍在空间域。FDConv 在频率域分组,多样性有数学保证。KW (4×) 用 76.5M 参数达到的性能,FDConv 用 3.6M 即可匹配
- vs FADC: FADC 根据特征频率特性调整膨胀率,而 FDConv 直接对卷积核做频带分解和空间调制,粒度更细
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从频率域重新理解动态卷积是全新视角,FDW 的傅里叶不相交分组保证多样性的设计极为精巧
- 实验充分度: ⭐⭐⭐⭐ 覆盖检测、实例分割、语义分割多个任务,多种架构验证,分析深入
- 写作质量: ⭐⭐⭐⭐ 频率分析可视化(Fig.1, Fig.5)直观有说服力,方法阐述清晰
- 价值: ⭐⭐⭐⭐⭐ 是动态卷积方向的重要突破,20× 参数效率提升具有极强的实用价值
相关论文¶
- [CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
- [ICCV 2025] Dynamic Dictionary Learning for Remote Sensing Image Segmentation
- [CVPR 2025] OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
- [CVPR 2025] HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation
- [CVPR 2025] Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation