✂️ 语义分割¶
📷 CVPR2025 · 共 13 篇
- 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
-
提出2DMamba,首个具有高效并行算法的原生2D选择性状态空间模型,通过保持2D空间连续性(而非展平为1D序列)来建模WSI中的patch间关系,在10个公共病理数据集上全面超越1D Mamba方法,并在ImageNet分类和ADE20K分割上也有提升。
- Binwang2Hfnet Geogran-Aware Hierarchical Feature Fusion Network For Salient Obje
-
提出 G2HFNet,通过多尺度细节增强 (MDE)、双分支几何-粒度互补 (DGC)、深层语义感知 (DSP) 和局部-全局引导融合 (LGF) 四个模块,针对不同层级特征设计差异化优化策略,在三个遥感显著性检测数据集上全面超越 SOTA。
- Crossearth-Sar A Sar-Centric And Billion-Scale Geospatial Foundation Model For D
-
提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,基于物理引导的稀疏混合专家 (MoE) 架构,构建了包含 200K 图像的训练集和 22 个子基准的评估体系,在 20/22 个跨域语义分割基准上达到 SOTA。
- Efficient Rgb-D Scene Understanding Via Multi-Task Adaptive Learning And Cross-D
-
提出一个高效 RGB-D 多任务场景理解网络,通过改进融合编码器利用冗余特征加速推理,引入归一化聚焦通道层 (NFCL) 和上下文特征交互层 (CFIL) 进行跨维度特征引导,并设计多任务自适应损失函数动态调整任务权重,在 NYUv2/SUN RGB-D/Cityscapes 上达到 SOTA。
- HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation
-
HFP-SAM 提出分层频率提示的 SAM 框架,通过频率引导适配器(FGA)注入海洋场景信息、频率感知点选择(FPS)自动生成高质量点提示、全视图 Mamba(FVM)高效解码,在四个海洋动物分割数据集上取得 SOTA。
- PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation
-
PicoSAM3 是一个 1.3M 参数的超轻量可提示分割模型,通过 ROI 隐式提示编码、密集 CNN 架构(无 Transformer)、SAM3 知识蒸馏和 INT8 量化,在 COCO 上达 65.45% mIoU,并实现在 Sony IMX500 视觉传感器上 11.82ms 实时推理。
- Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains
-
SAM FTI-FDet 提出基于轻量 SAM 的自动提示实例分割框架,通过 Transformer 解码器式的提示生成器自动产生任务相关提示、自适应特征分发器融合多尺度特征、TinyViT backbone 降低计算开销,在货运列车故障检测数据集上达 74.6 \(AP^{box}\) / 74.2 \(AP^{mask}\)。
- RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images
-
RDNet 针对遥感图像中目标尺度剧烈变化的问题,提出区域比例感知的动态自适应显著性检测网络,通过动态自适应细节感知模块(DAD,根据目标区域比例选择不同大小卷积核组合)、频率匹配上下文增强模块(FCE,小波域特征交互)和区域比例感知定位模块(RPL,交叉注意力+比例引导),在 EORSSD/ORSSD/ORSI-4199 三个数据集上取得 SOTA。
- RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection
-
提出区域引导选择性优化网络 RSONet,通过两阶段(区域引导+显著性生成)解决 RGB 与热红外图像中显著区域不一致问题,利用相似度分数自动选择信息更准确的模态主导后续融合。
- SAP: Segment Any 4K Panorama
-
将 360° 全景图分割重新定义为透视视频分割问题,通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块,配合 183K 合成 4K 全景图的大规模训练,实现零样本全景分割 +17.2 mIoU 的提升。
- SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
-
提出SGMA框架,通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合,以及模态感知采样(MAS)模块动态优先训练脆弱模态,解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
-
提出SPARROW框架,通过目标特定跟踪特征(TSF)和双提示(BOX+SEG)机制,解决视频MLLM中时序引用一致性差和首帧初始化不稳定的问题,在6个基准上对3个主流视频MLLM均取得一致提升。
- Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation
-
提出 SERA 框架,在预训练视觉语言模型中引入轻量级表达感知的混合专家(MoE)精细化,分别在 backbone 层(SERA-Adapter)和融合层(SERA-Fusion)进行专家路由,仅更新 <1% 参数即在参考图像分割基准上达到 SOTA。