LSNet: See Large, Focus Small¶
会议: CVPR 2025
arXiv: 2503.23135
代码: https://github.com/jameslahm/lsnet
领域: model_compression
关键词: lightweight network, LS convolution, large kernel, dynamic convolution, heteroscale vision, token mixing
一句话总结¶
受人类视觉外周(广域感知)-中央(精细聚合)的双尺度机制启发,提出 LS 卷积(大核深度卷积感知 + 小核动态卷积聚合),构建 LSNet 轻量网络家族,在 0.3~1.3G FLOPs 下全面超越现有 SOTA 轻量模型。
研究背景与动机¶
领域现状: 轻量视觉网络在实时部署场景中至关重要。现有轻量模型主要依赖自注意力或标准卷积进行 token mixing。
现有痛点: (1) 自注意力: 感知和聚合范围相同(同尺度),扩大感知范围必然增加计算复杂度;且对不重要区域(如背景)的冗余注意力浪费了有限的计算预算。(2) 标准卷积: 聚合权重由固定核权重决定,对不同上下文缺乏自适应性;轻量模型中核尺寸通常较小,感受野有限。
核心矛盾: 在极低计算预算下,如何同时实现大范围感知(理解上下文)和高效精细聚合(提取判别性特征)。
本文切入角度: 人眼视网膜的杆状细胞(广布外周,广域低分辨率)和锥状细胞(集中中央凹,小范围高分辨率)形成了天然的"看大、聚小"机制 — 将此映射为大核静态卷积感知 + 小核动态卷积聚合。
方法详解¶
整体框架¶
四阶段金字塔架构,前三阶段堆叠 LS Block,最后阶段使用 MSA Block(因分辨率已足够小)。分辨率依次为 H/8→H/16→H/32→H/64。
关键设计¶
1. 大核感知(Large-Kernel Perception, LKP) - 功能: 用大核深度卷积高效捕获大范围上下文关系,生成位置自适应的聚合权重。 - 核心结构: PW(降维到 C/2) → DW_{K_L×K_L}(大核深度卷积,默认 K_L=7)→ PW(生成权重 W ∈ R^{H×W×D}) $\(w_i = \mathcal{P}_{ls}(x_i, \mathcal{N}_{K_L}(x_i)) = \text{PW}(\text{DW}_{K_L \times K_L}(\text{PW}(\mathcal{N}_{K_L}(x_i))))\)$ - 设计动机: 大核 DW 卷积计算量为 O(HWCK²/2),随核大小线性增长而非二次增长(对比 self-attention O(H²W²)),可低成本扩大感受野。
2. 小核聚合(Small-Kernel Aggregation, SKA) - 功能: 利用 LKP 生成的自适应权重,在小邻域内进行动态卷积聚合精细特征。 - 核心机制: 将 LKP 生成的权重 \(w_i\) reshape 为 \(w_i^* \in R^{G \times K_S \times K_S}\)(默认 K_S=3, G=C/8),对每组通道共享动态核进行卷积: $\(y_{ic} = w_{ig}^* \circledast \mathcal{N}_{K_S}(x_{ic})\)$ - 设计动机: 小核限制了聚合范围,保证计算效率;动态核由大感受野信息生成,因此小核也具有全局上下文感知能力。
3. LS Block 设计 - 功能: 以 LS 卷积为核心的完整 block 设计。 - 核心结构: LS Conv → Skip Connection → 额外 DW Conv + SE 层(引入局部归纳偏置)→ FFN(通道混合)。 - 设计动机: SE 和额外 DW 在极轻量预算下提供了少量但关键的局部结构信息增强。
损失函数¶
标准分类交叉熵 + 知识蒸馏(可选,使用 RegNetY-16GF 82.9% 作为教师模型)。
复杂度分析¶
对输入分辨率线性复杂度。
实验关键数据¶
主实验 — ImageNet-1K 分类¶
| 模型 | Params (M) | FLOPs (G) | Throughput | Top-1 (%) |
|---|---|---|---|---|
| EfficientViT-M3 | 6.9 | 0.3 | 14613 | 73.4 |
| StarNet-S1 | 2.9 | 0.4 | 5034 | 73.5 |
| LSNet-T | 11.4 | 0.3 | 14708 | 74.9 |
| UniRepLKNet-A | 4.4 | 0.6 | 3931 | 77.0 |
| SHViT-S3 | 14.2 | 0.6 | 8993 | 77.4 |
| LSNet-S | 16.1 | 0.5 | 9023 | 77.8 |
| AFFNet | 5.5 | 1.5 | 1355 | 79.8 |
| RepViT-M1.1 | 8.2 | 1.3 | 3604 | 79.4 |
| LSNet-B | 23.2 | 1.3 | 3996 | 80.3 |
LSNet-T 在 0.3G FLOPs 即达 74.9%,超越同 FLOPs 所有模型;LSNet-B 80.3% 超越 AFFNet 0.5% 且推理速度快 ~3×。
COCO 检测 + 实例分割(RetinaNet / Mask R-CNN)¶
| 骨干 | FLOPs (G) | RetinaNet AP | Mask R-CNN AP^b / AP^m |
|---|---|---|---|
| EfficientViT-M4 | 1.6 | 32.7 | 32.8 / 31.0 |
| StarNet-S1 | 2.2 | 33.6 | — |
| LSNet-S | 2.5 | 36.7 | 37.1 / 34.5 |
消融实验¶
| 变体 | Top-1 (%) | 说明 |
|---|---|---|
| 仅大核 DW | 76.7 | 无动态聚合 |
| 仅小核动态 | 77.0 | 无大范围感知 |
| 大核+小核简单拼接 | 77.2 | 缺乏感知→聚合的引导关系 |
| LS Conv (完整) | 77.8 | 大核感知引导小核动态聚合 |
关键发现¶
- 异尺度优于同尺度: LS Conv 的感知-聚合异尺度设计比自注意力(同尺度)和标准卷积(同尺度+静态)都更高效。
- 不是简单堆叠: 大核+小核简单拼接仅 77.2%,LS Conv 的结构化组合达到 77.8%(+0.6%),证明"感知引导聚合"的因果关系优于并行拼接。
- 吞吐量优势: LSNet-T 达到 14708 img/s,是轻量模型中最快的之一。
亮点与洞察¶
- 生物视觉启发的精确映射: 外周视觉→大核感知、中央视觉→小核聚合,生物学类比不仅是叙事噱头,而是转化为了具体的计算结构。
- 感知和聚合解耦: 打破自注意力"感知=聚合范围"的约束,允许用廉价的大核获取大感受野、用小核保持低聚合开销。
- 线性复杂度 + 动态性: 同时获得了大核的线性复杂度和动态卷积的内容自适应性。
- 通用性: 分类/检测/分割三任务全面 SOTA,不是单点突破。
局限与展望¶
- 参数量相对偏高(LSNet-T 11.4M vs EfficientViT-M3 6.9M),虽然 FLOPs 低但内存占用可能是瓶颈。
- 仅在 ImageNet-1K 验证,未涉及更高分辨率(如 ImageNet-22K 预训练)。
- K_L=7, K_S=3 为经验值,未展示系统的核尺寸搜索结果。
- 最后阶段仍退回 MSA Block,未完全统一为 LS Conv 架构。
- 动态核的组机制(G=C/8)增加了实现复杂度,对专用硬件适配性需评估。
相关工作与启发¶
- RepLKNet/UniRepLKNet: 大核卷积的代表,但聚合仍是静态的 → LSNet 引入动态聚合补全了大核方案的短板。
- Involution (Li et al.): 基于单像素 MLP 生成动态核 → LSNet 用大核感知替代单像素 MLP,提供了更丰富的上下文信息。
- EfficientViT: 级联组注意力 → 仍受限于自注意力的同尺度问题。
- 启发: "感知和聚合可以有不同范围"这一设计理念可推广到 NLP(如 token mixing 可以先大范围建模关系、再小范围聚合)。
评分¶
⭐⭐⭐⭐ — 设计思路清晰且有生物学支撑,三任务全面 SOTA,代码公开;但参数量偏高、关键超参缺乏系统消融。
相关论文¶
- [ACL 2025] SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization
- [ICML 2025] DataDecide: How to Predict Best Pretraining Data with Small Experiments
- [ICCV 2025] Colors See Colors Ignore: Clothes Changing ReID with Color Disentanglement
- [ACL 2025] Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching
- [NeurIPS 2025] Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization