Low-Data Supervised Adaptation Outperforms Prompting for Cloud Segmentation Under Domain Shift¶

会议: CVPR 2026
arXiv: 2604.08956
代码: https://github.com/uga-gaim/2026_CVPRW_CloudPrompts
领域: 遥感图像
关键词: 域迁移, 云分割, 提示工程, 低数据微调, 视觉语言模型

一句话总结¶

本文系统证明了在卫星遥感云分割任务中，提示工程完全无法弥补视觉-语言模型的域差距，而仅需0.1%（约8张图像）的有标签数据进行微调就能超越所有零样本提示策略。

领域现状：视觉-语言模型（如CLIP/CLIPSeg）在自然图像上表现出色，提示工程成为主流部署范式。约70%的生产AI系统依赖提示而非权重调优。

现有痛点：卫星图像与自然图像存在根本性差异——鸟瞰视角、多光谱传感器、无定形大气现象（如云、雾）与CLIP预训练的以物体为中心的自然图像截然不同。语言层面同样存在严重鸿沟，"光学薄卷云"等气象术语在训练数据中几乎不存在。

核心矛盾：这种视觉和语言的双重分布偏移构成了一种复合失配。提示工程的基本假设是预训练表示与目标域足够接近、语言可以弥补剩余差距——但这一假设在卫星图像领域根本不成立。

本文目标：(1) 量化提示工程在严重域偏移下的失败程度；(2) 确定监督微调的最低标注成本交叉点；(3) 比较LoRA与全量微调在不同数据预算下的表现。

切入角度：使用CLIPSeg在CloudSEN12+数据集上进行控制实验，设计60种提示变体，并从0.1%到100%的数据预算进行微调实验。

核心idea：有标签数据不是提示工程的昂贵替代方案，而是值得投入的正确路径，8张标注图像即可超越任何提示策略。

本文是一项系统性的实证研究，而非提出新方法。实验流程包括：(1) 在CLIPSeg上测试60种提示变体；(2) 在0.1%-100%数据预算下进行LoRA和全量微调；(3) 分析每类性能、监督骤降现象和方法选择的决策因素。

提示敏感性分析框架:
- 功能：系统评估提示工程在域偏移下的有效性
- 核心思路：设计60种提示变体，涵盖简单标签、领域术语、外观描述符和上下文线索四大类策略。每种变体在CloudSEN12+测试集上评估mIoU
- 设计动机：建立提示工程的性能天花板，证明语言精炼无法弥补视觉-语言域差距
复合损失函数训练:
- 功能：解决云分割中的类别不平衡问题
- 核心思路：组合Focal Loss（\(\alpha=0.75, \gamma=2.0\)）、Tversky Loss（\(\alpha_T=0.3, \beta_T=0.7\)）和边界损失，权重分别为0.8、1.0和0.1
- 设计动机：Tversky Loss更重地惩罚漏检，关键是薄云和云影占图像面积小；Focal Loss处理易分类像素的前景-背景不平衡；边界损失改善云边缘勾勒
监督骤降现象分析:
- 功能：揭示极低数据预算下的隐藏风险
- 核心思路：在0.5-1%数据量时，微调对光谱模糊类别（薄云、云影）的性能暂时下降，而在2.5-5%数据量时恢复
- 设计动机：警示聚合mIoU指标可能掩盖类别级别的性能退化，提供更精细的数据预算决策依据

全量微调使用学习率 \(5 \times 10^{-5}\)，训练20轮；LoRA使用学习率 \(2 \times 10^{-4}\)，rank=32，\(\alpha=64\)，训练15轮。低数据实验中每个数据百分比进行10次独立运行取平均。

数据集/方法	指标	本文	之前基线	提升
CloudSEN12+ (零样本)	mIoU	0.255	-	基线
CloudSEN12+ (最佳提示)	mIoU	0.222	0.255	-12.9%
CloudSEN12+ (最差提示)	mIoU	0.068	0.255	-73.3%
CloudSEN12+ FFT 0.1% (~8图)	mIoU	>0.255	0.255	超越零样本
CloudSEN12+ FFT 10%	mIoU	0.57	0.255	+123.5%
CloudSEN12+ FFT 100%	mIoU	0.66	0.255	+158.8%
CloudSEN12+ LoRA 100%	mIoU	0.60	0.255	+135.3%

极低标注成本交叉点：8张标注图像即可超越任何提示策略，挑战了"标注数据是昂贵替代品"的假设。对于任何严重域偏移的应用场景，这意味着少量标注是最具性价比的投入
监督骤降现象的发现：在0.5-1%数据量时模型对困难类别暂时退化，这种现象被聚合指标掩盖。该发现对所有低数据微调场景都具有警示意义
FFT vs LoRA的差距源于表征能力而非数据效率：两者差距在不同数据预算下保持稳定，说明全量微调的优势来自更大的表征适应空间