UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale¶

会议: ICCV 2025
arXiv: 2508.09000
代码: https://github.com/ai-paperwithcode/UniConvNet
领域: 模型压缩 / 高效网络设计
关键词: 卷积神经网络, 有效感受野, 渐近高斯分布, 轻量化网络, 大核卷积

一句话总结¶

提出UniConvNet，通过合理组合较小卷积核（7×7, 9×9, 11×11）的三层感受野聚合器（RFA），在扩大有效感受野（ERF）的同时保持其渐近高斯分布（AGD），从而在轻量级到大规模模型上全面超越现有CNN和ViT。

大核卷积网络（如SLaK、UniRepLKNet）虽然能获得更大的有效感受野，但存在两个关键问题：

高参数和计算成本：极大的卷积核带来显著的参数和FLOPs开销

破坏ERF的渐近高斯分布：大核卷积会导致ERF的多尺度影响分布不再符合"距离输出像素越近、影响越大"的自然直觉

传统小核网络（如ResNet-101）通过堆叠3×3卷积虽然ERF较小，但其多尺度梯度影响天然符合AGD。本文的核心问题是：能否通过合理组合较小的卷积核，既扩大ERF又保持AGD？

UniConvNet采用四阶段金字塔结构（stem + 4 stages），每个stage由多个Three-layer RFA模块堆叠构成。整体架构基于InternImage设计，将其中的卷积替换为提出的RFA模块，并采用DCNV3残差连接（去除了softmax归一化）。

感受野聚合器（Receptive Field Aggregator, RFA）：
- 将输入沿通道维度分为N+1个head：\(A_1, H_1, ..., H_N\)
- \(A_1\)首先送入Layer Operator 1，输出\(A_2\)的通道数从\(\frac{C}{N+1}\)增长到\(\frac{2C}{N+1}\)
- 递归地将\(A_n\)送入后续LO，通道维度呈金字塔递增，降低参数量和FLOPs
- 剩余的\(H_n\)在每层与\(A_n\)交互，通过1×1卷积做投影增强特征多样性
- 设计动机：直接在浅层模块中为不同尺度的感受野分配判别性影响
层操作符（Layer Operator, LO）：
- 放大器（Amplifier, Amp）：对\(a_{n,1}\)进行深度可分离大核\(K \times K\)卷积+GELU激活后，与\(a_{n,2}\)做逐元素乘法。扩展感受野并放大显著像素的影响
- 判别器（Discriminator, Dis）：融合深度可分离\(K \times K\)和\(k \times k\)（k=3）卷积的特征，为大感受野引入小尺度新像素的判别性影响
- 两者拼接后形成具有两层AGD的输出，通道数递增
- 设计动机：从感受野的角度构建空间编码器，通过乘法放大显著特征并添加局部细节
三层RFA配置（Three-layer RFA）：
- 对于224×224输入，使用N=3层，卷积核尺寸分别为\(K=2n+5\)，即7×7、9×9、11×11
- 小核尺寸k=3，最终形成四层AGD的感受野
- 最大核11×11确保stage 3的14×14特征图中边角像素最多有四分之一重叠
- 通过堆叠多个RFA模块可持续扩展ERF同时维持AGD

模型	参数量	FLOPs	Top-1 Acc
UniRepLKNet-A	4.4M	0.6G	77.0%
UniConvNet-A	3.4M	0.589G	77.0%
DCNV4	5.3M	0.805G	78.5%
UniConvNet-P0	5.2M	0.832G	79.1%
ConvNeXt-T	29.0M	5.0G	82.1%
InternImage-T	30.0M	5.0G	83.5%
UniConvNet-T	30.3M	5.1G	84.2%
InternImage-B	97.0M	16.0G	84.9%
UniConvNet-B	97.6M	15.9G	85.0%
InternImage-XL†	335M	163G	88.0%
UniConvNet-XL†	226.7M	115.2G	88.4%

模型	核尺寸	参数量	FLOPs	Acc
UniConvNet-A	5,7,9	3.5M	0.564G	76.6%
UniConvNet-A	7,9,11	3.4M	0.589G	77.0%
UniConvNet-A	9,11,13	3.5M	0.579G	76.9%
UniConvNet-T	5,7,9	30.0M	5.0G	84.1%
UniConvNet-T	7,9,11	30.3M	5.1G	84.2%