Dynamic Dictionary Learning for Remote Sensing Image Segmentation¶

会议: ICCV 2025
arXiv: 2503.06683
代码: D2LS
领域: 遥感 / 语义分割
关键词: 动态字典学习, 遥感图像分割, 类别嵌入, 交叉注意力, 对比学习

一句话总结¶

本文提出动态字典学习框架 D2LS，通过多阶段交替交叉注意力迭代更新类别感知语义嵌入（字典），并引入对比约束增强类间可分性，在遥感图像粗粒度和细粒度分割任务上均超越 SOTA。

研究背景与动机¶

领域现状：遥感图像语义分割是遥感领域的核心任务，需要对卫星/航拍图像中的每个像素进行类别标注（如建筑、道路、植被、水体等）。现有方法主要依赖隐式表征学习范式，通过端到端的编码器-解码器架构直接从图像特征预测分割结果。

现有痛点：遥感图像存在严重的类内异质性（同一类别在不同场景下外观差异大，如不同厚度的云层）和类间同质性（不同类别外观相似，如低矮建筑和道路）。现有方法使用固定的语义嵌入，无法根据输入图像的上下文特征动态调整类别表征，在细粒度分类场景中表现不佳。

核心矛盾：传统语义分割方法中类别表征是"一刀切"的——所有图像共享相同的类别原型。但遥感图像中同一类别在不同地理区域、不同光照、不同季节下差异巨大，需要输入自适应的动态类别表征。

本文目标：设计一种显式建模类别语义嵌入的框架，能够根据输入图像动态调整类别表征，解决遥感分割中的细粒度类别混淆问题。

切入角度：作者借鉴字典学习（Dictionary Learning）的思想——把每个类别看作字典中的一个"词条"，通过与图像特征的交互迭代更新这些词条的表征，使其适应当前输入。

核心 idea：用动态字典替代静态类别原型，通过多阶段交替交叉注意力在图像特征和字典嵌入之间反复查询，渐进式地更新类别表征，实现输入自适应的语义分割。

方法详解¶

整体框架¶

D2LS 的整体流程：输入遥感图像 → 骨干网络提取多尺度特征 → 初始化类别字典嵌入（每个类别一个可学习的嵌入向量）→ 多阶段交替交叉注意力模块迭代更新字典嵌入 → 用更新后的字典嵌入对像素特征进行分类 → 输出分割结果。在训练过程中，还在字典空间上施加对比约束以增强类别可分性。

关键设计¶

动态字典构建机制（Dynamic Dictionary Construction）:
- 功能：为每个类别维护一个可学习的语义嵌入向量，作为字典中的"词条"
- 核心思路：字典嵌入初始化为可学习参数，维度与图像特征对齐。在推理时，这些嵌入会根据输入图像的特征通过交叉注意力进行动态更新。关键创新在于字典更新是多阶段的——每个阶段先用图像特征查询字典嵌入（Image-to-Dict），再用更新后的字典嵌入查询图像特征（Dict-to-Image），交替进行多轮
- 设计动机：单轮交叉注意力可能无法充分捕捉图像与类别表征之间的关联。多阶段交替查询允许字典嵌入逐步吸收输入图像的上下文信息，越来越"适配"当前输入
多阶段交替交叉注意力（Multi-stage Alternating Cross-attention）:
- 功能：在图像特征和字典嵌入之间建立双向信息流，渐进式更新类别表征
- 核心思路：每个阶段包含两步——(1) 以字典嵌入为 Query、图像特征为 Key/Value 进行交叉注意力，让字典嵌入从图像中聚合相关信息；(2) 以图像特征为 Query、更新后的字典嵌入为 Key/Value 进行交叉注意力，让图像特征获得类别感知的增强。多个阶段堆叠实现渐进式精化
- 设计动机：遥感图像中类别边界模糊、上下文复杂，需要多轮交互才能建立准确的类别-像素对应关系。交替查询确保信息双向流动，避免单向瓶颈
字典空间对比约束（Contrastive Constraint on Dictionary Space）:
- 功能：确保字典空间中同类嵌入紧凑聚集、异类嵌入远离分开
- 核心思路：在字典嵌入更新完成后，对同一类别的嵌入施加拉近约束（缩小类内距离），对不同类别的嵌入施加推远约束（增大类间距离）。具体使用对比损失函数，正样本对是同类别的字典嵌入和对应像素特征，负样本对是跨类别的
- 设计动机：仅靠交叉注意力更新字典嵌入，可能导致不同类别的嵌入在特征空间中过于接近（尤其是外观相似的类别）。对比约束显式地增强类别可分性，对解决类间同质性问题至关重要

损失函数 / 训练策略¶

总损失由三部分组成：(1) 标准的交叉熵分割损失，作为主要监督信号；(2) 字典空间的对比损失，增强类别可分性；(3) 辅助的像素级损失用于中间阶段的监督。训练采用 AdamW 优化器，使用多尺度训练策略适应遥感图像的大范围尺度变化。

实验关键数据¶

主实验¶

在粗粒度和细粒度遥感分割数据集上与 SOTA 方法对比：

数据集	指标	D2LS	之前 SOTA	提升
LoveDA (在线测试)	mIoU	最优	SegFormer/UPerNet	显著提升
UAVid (在线测试)	mIoU	最优	之前最佳方法	显著提升
iSAID	mIoU	SOTA	之前最佳	稳定提升
云层厚度细分类	mIoU	SOTA	-	在细粒度任务上优势尤为突出

特别在两个在线测试基准（LoveDA 和 UAVid）上取得最优结果，证明方法在公平评估下的有效性。

消融实验¶

配置	mIoU 变化	说明
Full D2LS	最优	完整模型
w/o 多阶段更新	下降 ~2%	只用单阶段交叉注意力
w/o 交替查询	下降 ~1.5%	只用单向(Image-to-Dict)查询
w/o 对比约束	下降 ~1.8%	去掉字典空间的对比损失
1 阶段 vs 3 阶段 vs 5 阶段	3 阶段最优	阶段数过多有过拟合风险

关键发现¶

多阶段交替机制贡献最大：字典嵌入需要与图像特征充分交互才能达到最佳表征
对比约束在细粒度任务中尤为关键：如云层厚度分类，去掉对比约束后类间混淆显著增加
在 LoveDA 和 UAVid 在线排行榜上名列前茅，验证了方法的泛化能力
动态字典的计算开销可控，推理速度与标准分割方法接近

亮点与洞察¶

字典学习范式引入语义分割：将传统的字典学习思想与 Transformer 的交叉注意力结合，实现了输入自适应的类别表征。这种"动态原型"思路可以迁移到医学图像分割、自动驾驶场景理解等其他需要处理类内变化的任务
交替查询的双向精化：不是单纯用图像特征更新字典，而是字典和图像特征互相查询、互相增强。这种双向交互模式比单向查询更有效
在在线测试基准上验证：LoveDA 和 UAVid 的在线评估避免了过拟合测试集的问题，结果更可信

局限与展望¶

字典的类别数需要预设，无法处理开放集语义分割场景
多阶段交替注意力增加了计算量，虽然作者称开销可控，但在大规模部署时仍需考虑
当前只在遥感场景验证，在自然图像分割中的效果未知（遥感的类内变化特点可能不完全适用于自然场景）
未来可以探索与视觉-语言模型结合，用文本描述辅助字典初始化

评分¶

新颖性: ⭐⭐⭐⭐ 字典学习 + 交替交叉注意力的组合有新意，但核心组件（交叉注意力、对比学习）本身不新
实验充分度: ⭐⭐⭐⭐ 粗粒度 + 细粒度数据集，在线排行榜验证，消融完整
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述系统
价值: ⭐⭐⭐⭐ 对遥感分割社区有直接价值，动态原型思路有迁移潜力