Dynamic Dictionary Learning for Remote Sensing Image Segmentation¶
会议: ICCV 2025
arXiv: 2503.06683
代码: D2LS
领域: 遥感 / 语义分割
关键词: 动态字典学习, 遥感图像分割, 类别嵌入, 交叉注意力, 对比学习
一句话总结¶
本文提出动态字典学习框架 D2LS,通过多阶段交替交叉注意力迭代更新类别感知语义嵌入(字典),并引入对比约束增强类间可分性,在遥感图像粗粒度和细粒度分割任务上均超越 SOTA。
研究背景与动机¶
领域现状:遥感图像语义分割是遥感领域的核心任务,需要对卫星/航拍图像中的每个像素进行类别标注(如建筑、道路、植被、水体等)。现有方法主要依赖隐式表征学习范式,通过端到端的编码器-解码器架构直接从图像特征预测分割结果。
现有痛点:遥感图像存在严重的类内异质性(同一类别在不同场景下外观差异大,如不同厚度的云层)和类间同质性(不同类别外观相似,如低矮建筑和道路)。现有方法使用固定的语义嵌入,无法根据输入图像的上下文特征动态调整类别表征,在细粒度分类场景中表现不佳。
核心矛盾:传统语义分割方法中类别表征是"一刀切"的——所有图像共享相同的类别原型。但遥感图像中同一类别在不同地理区域、不同光照、不同季节下差异巨大,需要输入自适应的动态类别表征。
本文目标:设计一种显式建模类别语义嵌入的框架,能够根据输入图像动态调整类别表征,解决遥感分割中的细粒度类别混淆问题。
切入角度:作者借鉴字典学习(Dictionary Learning)的思想——把每个类别看作字典中的一个"词条",通过与图像特征的交互迭代更新这些词条的表征,使其适应当前输入。
核心 idea:用动态字典替代静态类别原型,通过多阶段交替交叉注意力在图像特征和字典嵌入之间反复查询,渐进式地更新类别表征,实现输入自适应的语义分割。
方法详解¶
整体框架¶
D2LS 的整体流程:输入遥感图像 → 骨干网络提取多尺度特征 → 初始化类别字典嵌入(每个类别一个可学习的嵌入向量)→ 多阶段交替交叉注意力模块迭代更新字典嵌入 → 用更新后的字典嵌入对像素特征进行分类 → 输出分割结果。在训练过程中,还在字典空间上施加对比约束以增强类别可分性。
关键设计¶
-
动态字典构建机制(Dynamic Dictionary Construction):
- 功能:为每个类别维护一个可学习的语义嵌入向量,作为字典中的"词条"
- 核心思路:字典嵌入初始化为可学习参数,维度与图像特征对齐。在推理时,这些嵌入会根据输入图像的特征通过交叉注意力进行动态更新。关键创新在于字典更新是多阶段的——每个阶段先用图像特征查询字典嵌入(Image-to-Dict),再用更新后的字典嵌入查询图像特征(Dict-to-Image),交替进行多轮
- 设计动机:单轮交叉注意力可能无法充分捕捉图像与类别表征之间的关联。多阶段交替查询允许字典嵌入逐步吸收输入图像的上下文信息,越来越"适配"当前输入
-
多阶段交替交叉注意力(Multi-stage Alternating Cross-attention):
- 功能:在图像特征和字典嵌入之间建立双向信息流,渐进式更新类别表征
- 核心思路:每个阶段包含两步——(1) 以字典嵌入为 Query、图像特征为 Key/Value 进行交叉注意力,让字典嵌入从图像中聚合相关信息;(2) 以图像特征为 Query、更新后的字典嵌入为 Key/Value 进行交叉注意力,让图像特征获得类别感知的增强。多个阶段堆叠实现渐进式精化
- 设计动机:遥感图像中类别边界模糊、上下文复杂,需要多轮交互才能建立准确的类别-像素对应关系。交替查询确保信息双向流动,避免单向瓶颈
-
字典空间对比约束(Contrastive Constraint on Dictionary Space):
- 功能:确保字典空间中同类嵌入紧凑聚集、异类嵌入远离分开
- 核心思路:在字典嵌入更新完成后,对同一类别的嵌入施加拉近约束(缩小类内距离),对不同类别的嵌入施加推远约束(增大类间距离)。具体使用对比损失函数,正样本对是同类别的字典嵌入和对应像素特征,负样本对是跨类别的
- 设计动机:仅靠交叉注意力更新字典嵌入,可能导致不同类别的嵌入在特征空间中过于接近(尤其是外观相似的类别)。对比约束显式地增强类别可分性,对解决类间同质性问题至关重要
损失函数 / 训练策略¶
总损失由三部分组成:(1) 标准的交叉熵分割损失,作为主要监督信号;(2) 字典空间的对比损失,增强类别可分性;(3) 辅助的像素级损失用于中间阶段的监督。训练采用 AdamW 优化器,使用多尺度训练策略适应遥感图像的大范围尺度变化。
实验关键数据¶
主实验¶
在粗粒度和细粒度遥感分割数据集上与 SOTA 方法对比:
| 数据集 | 指标 | D2LS | 之前 SOTA | 提升 |
|---|---|---|---|---|
| LoveDA (在线测试) | mIoU | 最优 | SegFormer/UPerNet | 显著提升 |
| UAVid (在线测试) | mIoU | 最优 | 之前最佳方法 | 显著提升 |
| iSAID | mIoU | SOTA | 之前最佳 | 稳定提升 |
| 云层厚度细分类 | mIoU | SOTA | - | 在细粒度任务上优势尤为突出 |
特别在两个在线测试基准(LoveDA 和 UAVid)上取得最优结果,证明方法在公平评估下的有效性。
消融实验¶
| 配置 | mIoU 变化 | 说明 |
|---|---|---|
| Full D2LS | 最优 | 完整模型 |
| w/o 多阶段更新 | 下降 ~2% | 只用单阶段交叉注意力 |
| w/o 交替查询 | 下降 ~1.5% | 只用单向(Image-to-Dict)查询 |
| w/o 对比约束 | 下降 ~1.8% | 去掉字典空间的对比损失 |
| 1 阶段 vs 3 阶段 vs 5 阶段 | 3 阶段最优 | 阶段数过多有过拟合风险 |
关键发现¶
- 多阶段交替机制贡献最大:字典嵌入需要与图像特征充分交互才能达到最佳表征
- 对比约束在细粒度任务中尤为关键:如云层厚度分类,去掉对比约束后类间混淆显著增加
- 在 LoveDA 和 UAVid 在线排行榜上名列前茅,验证了方法的泛化能力
- 动态字典的计算开销可控,推理速度与标准分割方法接近
亮点与洞察¶
- 字典学习范式引入语义分割:将传统的字典学习思想与 Transformer 的交叉注意力结合,实现了输入自适应的类别表征。这种"动态原型"思路可以迁移到医学图像分割、自动驾驶场景理解等其他需要处理类内变化的任务
- 交替查询的双向精化:不是单纯用图像特征更新字典,而是字典和图像特征互相查询、互相增强。这种双向交互模式比单向查询更有效
- 在在线测试基准上验证:LoveDA 和 UAVid 的在线评估避免了过拟合测试集的问题,结果更可信
局限与展望¶
- 字典的类别数需要预设,无法处理开放集语义分割场景
- 多阶段交替注意力增加了计算量,虽然作者称开销可控,但在大规模部署时仍需考虑
- 当前只在遥感场景验证,在自然图像分割中的效果未知(遥感的类内变化特点可能不完全适用于自然场景)
- 未来可以探索与视觉-语言模型结合,用文本描述辅助字典初始化
相关工作与启发¶
- vs SegFormer: SegFormer 使用简单的 MLP 解码器,类别表征是隐式的。D2LS 显式建模类别嵌入并动态更新,在细粒度分割上更有优势
- vs Mask2Former: Mask2Former 也使用可学习查询来预测分割掩码,但查询是固定的、与类别无关。D2LS 的字典嵌入是类别感知的,且通过多阶段更新与输入适配
- vs 原型学习方法: 传统原型学习(如 PANet)使用支持集的均值作为类别原型,是静态的。D2LS 的字典是动态更新的,能更好地处理类内变化
评分¶
- 新颖性: ⭐⭐⭐⭐ 字典学习 + 交替交叉注意力的组合有新意,但核心组件(交叉注意力、对比学习)本身不新
- 实验充分度: ⭐⭐⭐⭐ 粗粒度 + 细粒度数据集,在线排行榜验证,消融完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述系统
- 价值: ⭐⭐⭐⭐ 对遥感分割社区有直接价值,动态原型思路有迁移潜力
相关论文¶
- [ICCV 2025] SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
- [CVPR 2025] RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images
- [AAAI 2026] RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation
- [ICCV 2025] Learn2Synth: Learning Optimal Data Synthesis Using Hypergradients for Brain Image Segmentation
- [ICCV 2025] Implicit Counterfactual Learning for Audio-Visual Segmentation