AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network¶
会议: CVPR 2026 arXiv: 2603.12659 代码: https://github.com/yuhu990424/AVION (有) 领域: 遥感 关键词: 视觉-语言模型, 知识蒸馏, 参数高效微调, 遥感场景分类, 提示学习
一句话总结¶
提出 AVION 知识蒸馏框架,通过 LLM 生成语义丰富的文本原型和视觉-文本双侧提示调优,解决遥感 VLM 适配中的语义贫乏和视觉刚性问题,在少样本分类、基类到新类泛化和跨模态检索上全面超越 SOTA。
研究背景与动机¶
遥感 (RS) 视觉-语言模型(如 RemoteCLIP、GeoRSCLIP)预训练后具备强零样本能力,但面对新场景仍需高效适配。全参数微调计算成本高且易过拟合。参数高效微调 (PEFT) 是轻量级替代方案,但现有方法在遥感场景下存在两个核心瓶颈:
-
语义贫乏 (Semantic Poverty):遥感数据集仅提供类别名称(如 "airport"),无法描述同一类别在不同区域、季节、传感器下的巨大视觉差异。CoOp 等方法仅从 "a photo of [CLASS]" 模板学习,文本编码器无法充分表达多样外观模式。
-
视觉刚性 (Visual Rigidity):多数 PEFT 方法仅更新文本编码器而冻结视觉编码器,导致模型无法捕获遥感特有的尺度变化和跨源异质性。
核心切入角度:用大型语言模型生成丰富的类别描述作为教师信号,同时在视觉和文本两侧注入可学习提示,通过三方面对齐蒸馏实现高效适配。核心 idea:用 LLM 增强的文本原型作为教师,指导视觉-文本双侧提示学习的学生模型进行三方面蒸馏对齐。
方法详解¶
整体框架¶
AVION 采用教师-学生蒸馏架构:冻结的大型教师模型(GeoRSCLIP ViT-H/14)离线构建语义丰富的文本原型;学生模型(GeoRSCLIP ViT-B/32)在视觉和文本编码器中注入可学习提示,通过三方面对齐损失训练。推理时仅使用学生模型。
关键设计¶
- LLM 域提示 + 选择性原型聚合 (Textual Prototype Enhancement)
- 做什么:为每个类别生成语义丰富的文本原型,替代单一类名
- 核心思路:(1) 用 LLM(Gemini 2.5 Flash)为每个类生成最多 50 条遥感相关描述;(2) 通过 RS-Flag 规则过滤非遥感描述;(3) 以教师视觉原型作为查询,计算每条描述的相似度;(4) 用中位数/MAD 鲁棒 z-score 剔除离群描述;(5) 按 softmax 加权聚合为最终原型,权重中包含 RS-Flag 先验加成
-
设计动机:LLM 生成的描述可能包含幻觉或非遥感内容,必须通过视觉原型验证和 RS-Flag 过滤。该聚合过程类似无参数交叉注意力,确保原型既语义丰富又视觉对齐
-
双侧深度提示调优 (Dual-Side Deep Prompt Tuning)
- 做什么:在学生模型的视觉和文本编码器中同时注入可学习提示
- 核心思路:类似 VPT 和 CoOp,在 ViT 的多层注入深度提示 token,使学生编码器在保持预训练权重冻结的前提下获得适配灵活性
-
设计动机:仅调整文本侧无法处理遥感图像的尺度变化和俯视视角特征;仅调整视觉侧缺乏语义指导。双侧提示使两个编码器都能在教师指导下积累遥感知识
-
三方面对齐蒸馏 (Tri-Aspect Alignment)
- 做什么:通过三种互补损失实现全面知识迁移
- 核心思路:
- 视觉对齐:拉近学生和教师的视觉嵌入(余弦距离)
- 文本对齐:拉近学生文本嵌入与教师语义原型(余弦距离)
- 相似度对齐:用温度缩放 KL 散度对齐模态间的概率分布
- 设计动机:视觉对齐解决视觉刚性,文本对齐解决语义贫乏,logit 对齐传递类间关系的隐式知识
损失函数 / 训练策略¶
总目标为任务损失 + 三种对齐损失的加权和。设置视觉和文本对齐权重 0.5,logit 对齐权重 1.0,logit 损失使用 30% 线性 warm-up。蒸馏温度 tau=2。AdamW 优化器,lr 5e-4,batch size 4。所有实验在单张 NVIDIA L4 GPU 上完成。
实验关键数据¶
主实验¶
| 数据集 | 指标 | AVION | 之前SOTA (APPLeNet) | 提升 |
|---|---|---|---|---|
| 6 数据集平均 (1-shot) | Accuracy | 74.27% | 74.27% | 持平 |
| 6 数据集平均 (8-shot) | Accuracy | 91.85% | 89.20% | +2.65pp |
| 6 数据集平均 (16-shot) | Accuracy | 93.69% | 91.61% | +2.08pp |
| 6 数据集平均 (B2N) | HM | 87.05% | 83.84% | +3.21pp |
| 6 数据集平均 (B2N) | Novel | 79.94% | 75.75% | +4.19pp |
| RSITMD | mR | 52.92% | - | +1.11pp vs GeoRSCLIP-FT |
| RSICD | mR | 39.80% | - | +0.93pp vs GeoRSCLIP-FT |
消融实验¶
| 配置 | HM (%) | 1-shot (%) | 说明 |
|---|---|---|---|
| B0: CoOp-style 浅层文本提示 | 78.88 | 69.98 | 基线 |
| B1: + 深度提示 | 66.71 | 66.95 | Novel 退化严重 |
| B2: + 视觉对齐 | 72.74 | 70.21 | 正则化恢复泛化 |
| B5: + LLM 原型 + 选择性聚合 | 83.05 | 72.52 | 最大 HM 提升 |
| B7: + logit 对齐 + warm-up | 87.05 | 74.27 | 全面最优 |
关键发现¶
- AVION 是唯一在 base-to-novel 设置中同时超过 GeoRSCLIP 基线的方法(Novel 79.94% vs 79.75%)
- 随着 shot 数增加,AVION 与次优方法差距从 0pp 扩大到 +2.65pp
- LLM 域提示 + 选择性聚合是最大贡献组件(HM +10.31pp)
- t-SNE 可视化显示 AVION 在 novel 类上保持良好的多模态对齐
亮点与洞察¶
- 精准诊断了遥感 PEFT 的两个核心瓶颈,并系统性地各个击破
- 选择性原型聚合用无参数交叉注意力将 LLM 知识与视觉语义对齐,既利用丰富语义又过滤幻觉
- 三方面蒸馏的分步消融清晰,每个组件贡献有量化证据
- 跨模态检索中用更少可训练参数超过全参数微调
局限性 / 可改进方向¶
- 教师模型离线预计算仍有开销,类别极多时可能不够高效
- LLM 生成描述质量依赖提示设计,不同 LLM 效果差异未探索
- 仅在光学遥感上验证,SAR 等其他模态适用性未知
- 实验仅使用 RS-specific VLM,对通用 CLIP 的泛化未验证
相关工作与启发¶
- 与 PromptKD 相比,AVION 不仅蒸馏 logit,还蒸馏嵌入空间对齐结构,且引入 LLM 增强原型
- 选择性原型聚合可推广到其他领域特定 VLM 适配(医学、工业检测)
- RS-Flag + 视觉验证的双重过滤为 LLM 知识在专业领域的可靠使用提供范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 双侧提示 + LLM 原型增强 + 三方面蒸馏的组合有新意,但各单独组件并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 6 个分类 + 2 个检索数据集,三种评测协议,详尽消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题诊断清晰,方法动机明确,消融层层递进
- 价值: ⭐⭐⭐⭐ 对遥感 VLM 适配有实用价值,LLM 辅助原型构建思路有启发性\n