Foveated Instance Segmentation¶
会议: CVPR 2025
arXiv: 2503.21854
代码: 无
领域: 分割
关键词: 中央凹视觉, 实例分割, 注视引导, 显著性采样, 计算效率
一句话总结¶
FSNet 提出一种模拟人眼中央凹视觉机制的实例分割框架,通过可学习的显著性图引导非均匀下采样,在注视目标区域保持高分辨率细节、在外围降低分辨率,实现了在不同预训练分割网络上的即插即用式效率提升。
研究背景与动机¶
领域现状:实例分割是计算机视觉的核心任务,目标是识别并分割图像中的每个物体。现有方法(DeepLab、PSPNet、HRNet、SegFormer 等)通常在全分辨率或均匀下采样的图像上进行处理,对图像中所有区域给予同等的计算资源。
现有痛点:在许多实际应用场景中(如 AR/VR 头显、自动驾驶、机器人操作),用户或系统的注意力集中在特定目标上,但传统分割网络对整张图像均匀处理,浪费了大量计算资源。在高分辨率输入下(如自动驾驶中的 2K 图像),均匀处理的计算开销巨大。此外,当用户只关心特定物体时,精确分割注视物体比分割所有物体更有价值。
核心矛盾:高分辨率下全局均匀处理的高计算成本与注视场景中仅需精确分割焦点物体的低需求之间存在矛盾。人类视觉系统通过中央凹机制自然解决了这个问题——视网膜中心的高密度感受器提供精细视觉,外围感受器密度急剧下降。
本文目标 定义并解决"中央凹实例分割"任务——给定一个注视位置,仅分割注视目标,同时降低计算开销。
切入角度:借鉴人眼中央凹视觉的非均匀采样机制,利用可学习的显著性 DNN 生成注视区域的显著性图,通过高斯核引导的非均匀下采样在保持注视区域高分辨率的同时大幅缩小整体输入尺寸。
核心 idea:用可学习显著性图驱动的非均匀下采样模拟中央凹视觉,在注视目标区域保留高分辨率、外围大幅降采,实现注视目标的高效准确分割。
方法详解¶
整体框架¶
FSNet 由三个模块组成:(1) 显著性 DNN 根据输入图像和注视位置生成显著性图;(2) 显著性引导下采样器利用高斯核按照显著性图进行非均匀下采样,产生一张变形后的低分辨率图像(注视区域放大、外围压缩);(3) 分割 DNN(可以是任意预训练的语义分割网络)在变形图像上进行分割,再映射回原始坐标。注视位置处的物体被标为前景(值为 1),其余为背景(值为 0),构成二分类分割任务。
关键设计¶
-
显著性 DNN (Saliency DNN):
- 功能:根据图像和注视位置生成空间显著性图,指示哪些区域需要保留高分辨率
- 核心思路:使用轻量级 3 层 U-Net(基础通道数 16),输入原始图像,输出每个像素的显著性权重。显著性图与高斯核结合后用于计算非均匀采样的映射函数。映射函数使用加权平均:\(G^h(i,j,F) = \frac{\sum_{i',j'} D_\theta(i',j',F) k_\sigma((i,j),(i',j')) i'}{\sum_{i',j'} D_\theta(i',j',F) k_\sigma((i,j),(i',j'))}\),其中 \(D_\theta\) 是显著性权重,\(k_\sigma\) 是高斯核
- 设计动机:轻量级的 U-Net 产生的额外计算开销极小,但能根据图像内容自适应地分配采样密度,比固定的中央凹衰减模式更灵活
-
交替训练策略 (Alternating Training):
- 功能:协调显著性 DNN 和分割 DNN 的优化方向
- 核心思路:Stage 1 冻结分割 DNN,训练显著性 DNN 学习最优采样策略(500 iterations,NAdam 优化器);Stage 2 冻结显著性 DNN,微调分割 DNN 适应变形后的图像分布(800 iterations,AdamW 优化器)。两阶段交替进行直到收敛
- 设计动机:如果同时训练两个模块,显著性 DNN 和分割 DNN 的梯度会互相干扰——显著性图的变化会改变分割 DNN 的输入分布,导致不稳定。交替训练解耦了两个优化目标
-
高斯核下采样器 (Gaussian Kernel Sampler):
- 功能:执行基于显著性的非均匀空间变换
- 核心思路:使用固定标准差 \(\sigma\) 的高斯核(大小 \(2\sigma+1\)),通过显著性加权的局部坐标映射实现变形。高 \(\sigma\) 值提供更大感受野但权重更均匀,低 \(\sigma\) 值集中在局部区域。实验发现核大小 33(\(\sigma=16\))在性能和效率间取得最佳平衡
- 设计动机:高斯核提供平滑的空间变换,避免采样后出现严重的混叠伪影
损失函数 / 训练策略¶
分割任务转化为二值前景/背景分割问题。注视位置处的物体被标记为前景(mask 值 1),其余所有物体为背景(mask 值 0)。使用标准的像素级交叉熵损失。通过 OpenEDS2020 数据集的注视轨迹来采样注视位置,确保跨类别的均衡分布。
实验关键数据¶
主实验¶
在三个数据集上验证适配五种不同的预训练分割网络:
| 分割网络 | 参数量 | CityScapes IoU | ADE20K IoU | LVIS IoU |
|---|---|---|---|---|
| DeepLab (ResNet50) | 42M | 0.52 | - | - |
| PSPNet (ResNet50) | 24.3M | 0.49 | - | - |
| HRNet (W48) | 67.12M | 0.47 | - | - |
| SegFormer-B4 | 64M | 0.46 | - | - |
| SegFormer-B5 | 84.6M | 0.51 | - | - |
消融实验¶
| 高斯核大小 | DeepLab IoU | PSPNet IoU | FLOPs |
|---|---|---|---|
| 17 | 0.48 | 0.45 | 2.38M |
| 25 | 0.50 | 0.49 | 5.12M |
| 33 | 0.52 | 0.49 | 8.92M |
| 41 | 0.52 | 0.48 | 13.77M |
| 损失组件 | SSIM | FVD |
|---|---|---|
| 仅基础损失 | - | - |
| + 对抗损失 | 提升 | - |
| + 显著性引导 | 进一步提升 | 最优 |
关键发现¶
- FSNet 作为即插即用的框架,对所有五种预训练分割网络都有效,证明了方法的通用性
- 高斯核大小 33 在大多数模型上达到最佳 IoU,核大小从 17 到 41 的 FLOPs 增加 5.79 倍但 IoU 提升有限
- 显著性 DNN 的额外参数量极小(3 层 U-Net,base channel 16),计算开销可忽略
- 可视化结果显示变形后的图像在注视区域保持了清晰的细节,外围虽然被压缩但保留了足够的上下文
亮点与洞察¶
- 将中央凹视觉机制引入实例分割是一个很好的问题定义——在 AR/VR 等注视跟踪场景中,用户只关心看到的物体,无需分割全场景。这个任务定义在应用端有直接价值
- 即插即用的设计思路很实用——FSNet 不修改任何分割网络的内部结构,仅在输入端做非均匀变换,任何预训练模型都可以直接使用
- 交替训练策略是解耦两个互相依赖模块的经典方法,执行简单但效果稳健
局限与展望¶
- 中央凹下采样不可避免地丢失外围区域的信息,如果注视目标与背景有强依赖关系(如遮挡场景),分割质量可能下降
- 论文仅处理二值分割(单个注视物体 vs 背景),未探索同时分割注视物体及其语义标签的多类场景
- 注视位置需要外部提供(如眼动追踪设备),论文未讨论注视估计不准确时的鲁棒性
- 实验中的 IoU 绝对值不高(CityScapes 上最好 0.52),与全分辨率下的分割性能缺乏直接对比来量化精度-效率权衡
- 未在实际 AR/VR 设备或自动驾驶场景中进行端到端验证
相关工作与启发¶
- vs 传统分割方法: DeepLab/PSPNet 等在全图均匀处理,FSNet 通过非均匀采样将计算集中在重要区域,是效率导向的设计
- vs Foveated Rendering: 中央凹渲染在图形学中已广泛应用(如 VR 渲染),FSNet 将类似思想引入分割任务,可视为从"渲染"到"理解"的迁移
- vs 注意力机制: 标准注意力机制在特征层做加权,FSNet 在输入层做空间变换,两者可以互补使用
评分¶
- 新颖性: ⭐⭐⭐⭐ 中央凹视觉引入分割任务的问题定义新颖,但核心技术(显著性引导采样)已有较多前序工作
- 实验充分度: ⭐⭐⭐ 多个分割网络的验证充分,但缺少与全分辨率的精度-效率权衡分析和实际应用场景验证
- 写作质量: ⭐⭐⭐ 方法描述清晰,但论文整体较短,补充材料的分量过重
- 价值: ⭐⭐⭐ 问题定义有趣,但在当前形式下应用场景受限,需要进一步的工程化和场景验证
相关论文¶
- [CVPR 2025] Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains
- [CVPR 2025] V-CLR: View-Consistent Learning for Open-World Instance Segmentation
- [CVPR 2025] RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring
- [CVPR 2025] Audio-Visual Instance Segmentation
- [ICCV 2025] CAVIS: Context-Aware Video Instance Segmentation