CVPR 2025 模型压缩 lightweight network LS convolution large kernel dynamic convolution heteroscale vision token mixing

LSNet: See Large, Focus Small¶

会议: CVPR 2025
arXiv: 2503.23135
代码: https://github.com/jameslahm/lsnet
领域: model_compression
关键词: lightweight network, LS convolution, large kernel, dynamic convolution, heteroscale vision, token mixing

一句话总结¶

受人类视觉外周（广域感知）-中央（精细聚合）的双尺度机制启发，提出 LS 卷积（大核深度卷积感知 + 小核动态卷积聚合），构建 LSNet 轻量网络家族，在 0.3~1.3G FLOPs 下全面超越现有 SOTA 轻量模型。

研究背景与动机¶

领域现状: 轻量视觉网络在实时部署场景中至关重要。现有轻量模型主要依赖自注意力或标准卷积进行 token mixing。

现有痛点: (1) 自注意力: 感知和聚合范围相同（同尺度），扩大感知范围必然增加计算复杂度；且对不重要区域（如背景）的冗余注意力浪费了有限的计算预算。(2) 标准卷积: 聚合权重由固定核权重决定，对不同上下文缺乏自适应性；轻量模型中核尺寸通常较小，感受野有限。

核心矛盾: 在极低计算预算下，如何同时实现大范围感知（理解上下文）和高效精细聚合（提取判别性特征）。

本文切入角度: 人眼视网膜的杆状细胞（广布外周，广域低分辨率）和锥状细胞（集中中央凹，小范围高分辨率）形成了天然的"看大、聚小"机制 — 将此映射为大核静态卷积感知 + 小核动态卷积聚合。

方法详解¶

整体框架¶

四阶段金字塔架构，前三阶段堆叠 LS Block，最后阶段使用 MSA Block（因分辨率已足够小）。分辨率依次为 H/8→H/16→H/32→H/64。

关键设计¶

1. 大核感知（Large-Kernel Perception, LKP） - 功能: 用大核深度卷积高效捕获大范围上下文关系，生成位置自适应的聚合权重。 - 核心结构: PW(降维到 C/2) → DW_{K_L×K_L}（大核深度卷积，默认 K_L=7）→ PW(生成权重 W ∈ R^{H×W×D}) $$w_i = \mathcal{P}_{ls}(x_i, \mathcal{N}_{K_L}(x_i)) = \text{PW}(\text{DW}_{K_L \times K_L}(\text{PW}(\mathcal{N}_{K_L}(x_i))))$$ - 设计动机: 大核 DW 卷积计算量为 O(HWCK²/2)，随核大小线性增长而非二次增长（对比 self-attention O(H²W²)），可低成本扩大感受野。

2. 小核聚合（Small-Kernel Aggregation, SKA） - 功能: 利用 LKP 生成的自适应权重，在小邻域内进行动态卷积聚合精细特征。 - 核心机制: 将 LKP 生成的权重 $w_i$ reshape 为 $w_i^* \in R^{G \times K_S \times K_S}$（默认 K_S=3, G=C/8），对每组通道共享动态核进行卷积： $$y_{ic} = w_{ig}^* \circledast \mathcal{N}_{K_S}(x_{ic})$$ - 设计动机: 小核限制了聚合范围，保证计算效率；动态核由大感受野信息生成，因此小核也具有全局上下文感知能力。

3. LS Block 设计 - 功能: 以 LS 卷积为核心的完整 block 设计。 - 核心结构: LS Conv → Skip Connection → 额外 DW Conv + SE 层（引入局部归纳偏置）→ FFN（通道混合）。 - 设计动机: SE 和额外 DW 在极轻量预算下提供了少量但关键的局部结构信息增强。

损失函数¶

标准分类交叉熵 + 知识蒸馏（可选，使用 RegNetY-16GF 82.9% 作为教师模型）。

复杂度分析¶

\[O\left(\frac{HWC}{4}(3C + 2K_L^2 + (2G+4)K_S^2)\right)\]

对输入分辨率线性复杂度。

实验关键数据¶

主实验 — ImageNet-1K 分类¶

模型	Params (M)	FLOPs (G)	Throughput	Top-1 (%)
EfficientViT-M3	6.9	0.3	14613	73.4
StarNet-S1	2.9	0.4	5034	73.5
LSNet-T	11.4	0.3	14708	74.9
UniRepLKNet-A	4.4	0.6	3931	77.0
SHViT-S3	14.2	0.6	8993	77.4
LSNet-S	16.1	0.5	9023	77.8
AFFNet	5.5	1.5	1355	79.8
RepViT-M1.1	8.2	1.3	3604	79.4
LSNet-B	23.2	1.3	3996	80.3

LSNet-T 在 0.3G FLOPs 即达 74.9%，超越同 FLOPs 所有模型；LSNet-B 80.3% 超越 AFFNet 0.5% 且推理速度快 ~3×。

COCO 检测 + 实例分割（RetinaNet / Mask R-CNN）¶

骨干	FLOPs (G)	RetinaNet AP	Mask R-CNN AP^b / AP^m
EfficientViT-M4	1.6	32.7	32.8 / 31.0
StarNet-S1	2.2	33.6	—
LSNet-S	2.5	36.7	37.1 / 34.5

消融实验¶

变体	Top-1 (%)	说明
仅大核 DW	76.7	无动态聚合
仅小核动态	77.0	无大范围感知
大核+小核简单拼接	77.2	缺乏感知→聚合的引导关系
LS Conv (完整)	77.8	大核感知引导小核动态聚合

关键发现¶

异尺度优于同尺度: LS Conv 的感知-聚合异尺度设计比自注意力（同尺度）和标准卷积（同尺度+静态）都更高效。
不是简单堆叠: 大核+小核简单拼接仅 77.2%，LS Conv 的结构化组合达到 77.8%（+0.6%），证明"感知引导聚合"的因果关系优于并行拼接。
吞吐量优势: LSNet-T 达到 14708 img/s，是轻量模型中最快的之一。

亮点与洞察¶

生物视觉启发的精确映射: 外周视觉→大核感知、中央视觉→小核聚合，生物学类比不仅是叙事噱头，而是转化为了具体的计算结构。
感知和聚合解耦: 打破自注意力"感知=聚合范围"的约束，允许用廉价的大核获取大感受野、用小核保持低聚合开销。
线性复杂度 + 动态性: 同时获得了大核的线性复杂度和动态卷积的内容自适应性。
通用性: 分类/检测/分割三任务全面 SOTA，不是单点突破。

局限与展望¶

参数量相对偏高（LSNet-T 11.4M vs EfficientViT-M3 6.9M），虽然 FLOPs 低但内存占用可能是瓶颈。
仅在 ImageNet-1K 验证，未涉及更高分辨率（如 ImageNet-22K 预训练）。
K_L=7, K_S=3 为经验值，未展示系统的核尺寸搜索结果。
最后阶段仍退回 MSA Block，未完全统一为 LS Conv 架构。
动态核的组机制（G=C/8）增加了实现复杂度，对专用硬件适配性需评估。

评分¶

⭐⭐⭐⭐ — 设计思路清晰且有生物学支撑，三任务全面 SOTA，代码公开；但参数量偏高、关键超参缺乏系统消融。