跳转至

AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network

会议: CVPR 2026 arXiv: 2603.12659 代码: https://github.com/yuhu990424/AVION (有) 领域: 遥感 关键词: 视觉-语言模型, 知识蒸馏, 参数高效微调, 遥感场景分类, 提示学习

一句话总结

提出 AVION 知识蒸馏框架,通过 LLM 生成语义丰富的文本原型和视觉-文本双侧提示调优,解决遥感 VLM 适配中的语义贫乏和视觉刚性问题,在少样本分类、基类到新类泛化和跨模态检索上全面超越 SOTA。

研究背景与动机

遥感 (RS) 视觉-语言模型(如 RemoteCLIP、GeoRSCLIP)预训练后具备强零样本能力,但面对新场景仍需高效适配。全参数微调计算成本高且易过拟合。参数高效微调 (PEFT) 是轻量级替代方案,但现有方法在遥感场景下存在两个核心瓶颈:

  1. 语义贫乏 (Semantic Poverty):遥感数据集仅提供类别名称(如 "airport"),无法描述同一类别在不同区域、季节、传感器下的巨大视觉差异。CoOp 等方法仅从 "a photo of [CLASS]" 模板学习,文本编码器无法充分表达多样外观模式。

  2. 视觉刚性 (Visual Rigidity):多数 PEFT 方法仅更新文本编码器而冻结视觉编码器,导致模型无法捕获遥感特有的尺度变化和跨源异质性。

核心切入角度:用大型语言模型生成丰富的类别描述作为教师信号,同时在视觉和文本两侧注入可学习提示,通过三方面对齐蒸馏实现高效适配。核心 idea:用 LLM 增强的文本原型作为教师,指导视觉-文本双侧提示学习的学生模型进行三方面蒸馏对齐

方法详解

整体框架

AVION 采用教师-学生蒸馏架构:冻结的大型教师模型(GeoRSCLIP ViT-H/14)离线构建语义丰富的文本原型;学生模型(GeoRSCLIP ViT-B/32)在视觉和文本编码器中注入可学习提示,通过三方面对齐损失训练。推理时仅使用学生模型。

关键设计

  1. LLM 域提示 + 选择性原型聚合 (Textual Prototype Enhancement)
  2. 做什么:为每个类别生成语义丰富的文本原型,替代单一类名
  3. 核心思路:(1) 用 LLM(Gemini 2.5 Flash)为每个类生成最多 50 条遥感相关描述;(2) 通过 RS-Flag 规则过滤非遥感描述;(3) 以教师视觉原型作为查询,计算每条描述的相似度;(4) 用中位数/MAD 鲁棒 z-score 剔除离群描述;(5) 按 softmax 加权聚合为最终原型,权重中包含 RS-Flag 先验加成
  4. 设计动机:LLM 生成的描述可能包含幻觉或非遥感内容,必须通过视觉原型验证和 RS-Flag 过滤。该聚合过程类似无参数交叉注意力,确保原型既语义丰富又视觉对齐

  5. 双侧深度提示调优 (Dual-Side Deep Prompt Tuning)

  6. 做什么:在学生模型的视觉和文本编码器中同时注入可学习提示
  7. 核心思路:类似 VPT 和 CoOp,在 ViT 的多层注入深度提示 token,使学生编码器在保持预训练权重冻结的前提下获得适配灵活性
  8. 设计动机:仅调整文本侧无法处理遥感图像的尺度变化和俯视视角特征;仅调整视觉侧缺乏语义指导。双侧提示使两个编码器都能在教师指导下积累遥感知识

  9. 三方面对齐蒸馏 (Tri-Aspect Alignment)

  10. 做什么:通过三种互补损失实现全面知识迁移
  11. 核心思路:
    • 视觉对齐:拉近学生和教师的视觉嵌入(余弦距离)
    • 文本对齐:拉近学生文本嵌入与教师语义原型(余弦距离)
    • 相似度对齐:用温度缩放 KL 散度对齐模态间的概率分布
  12. 设计动机:视觉对齐解决视觉刚性,文本对齐解决语义贫乏,logit 对齐传递类间关系的隐式知识

损失函数 / 训练策略

总目标为任务损失 + 三种对齐损失的加权和。设置视觉和文本对齐权重 0.5,logit 对齐权重 1.0,logit 损失使用 30% 线性 warm-up。蒸馏温度 tau=2。AdamW 优化器,lr 5e-4,batch size 4。所有实验在单张 NVIDIA L4 GPU 上完成。

实验关键数据

主实验

数据集 指标 AVION 之前SOTA (APPLeNet) 提升
6 数据集平均 (1-shot) Accuracy 74.27% 74.27% 持平
6 数据集平均 (8-shot) Accuracy 91.85% 89.20% +2.65pp
6 数据集平均 (16-shot) Accuracy 93.69% 91.61% +2.08pp
6 数据集平均 (B2N) HM 87.05% 83.84% +3.21pp
6 数据集平均 (B2N) Novel 79.94% 75.75% +4.19pp
RSITMD mR 52.92% - +1.11pp vs GeoRSCLIP-FT
RSICD mR 39.80% - +0.93pp vs GeoRSCLIP-FT

消融实验

配置 HM (%) 1-shot (%) 说明
B0: CoOp-style 浅层文本提示 78.88 69.98 基线
B1: + 深度提示 66.71 66.95 Novel 退化严重
B2: + 视觉对齐 72.74 70.21 正则化恢复泛化
B5: + LLM 原型 + 选择性聚合 83.05 72.52 最大 HM 提升
B7: + logit 对齐 + warm-up 87.05 74.27 全面最优

关键发现

  • AVION 是唯一在 base-to-novel 设置中同时超过 GeoRSCLIP 基线的方法(Novel 79.94% vs 79.75%)
  • 随着 shot 数增加,AVION 与次优方法差距从 0pp 扩大到 +2.65pp
  • LLM 域提示 + 选择性聚合是最大贡献组件(HM +10.31pp)
  • t-SNE 可视化显示 AVION 在 novel 类上保持良好的多模态对齐

亮点与洞察

  • 精准诊断了遥感 PEFT 的两个核心瓶颈,并系统性地各个击破
  • 选择性原型聚合用无参数交叉注意力将 LLM 知识与视觉语义对齐,既利用丰富语义又过滤幻觉
  • 三方面蒸馏的分步消融清晰,每个组件贡献有量化证据
  • 跨模态检索中用更少可训练参数超过全参数微调

局限性 / 可改进方向

  • 教师模型离线预计算仍有开销,类别极多时可能不够高效
  • LLM 生成描述质量依赖提示设计,不同 LLM 效果差异未探索
  • 仅在光学遥感上验证,SAR 等其他模态适用性未知
  • 实验仅使用 RS-specific VLM,对通用 CLIP 的泛化未验证

相关工作与启发

  • 与 PromptKD 相比,AVION 不仅蒸馏 logit,还蒸馏嵌入空间对齐结构,且引入 LLM 增强原型
  • 选择性原型聚合可推广到其他领域特定 VLM 适配(医学、工业检测)
  • RS-Flag + 视觉验证的双重过滤为 LLM 知识在专业领域的可靠使用提供范式

评分

  • 新颖性: ⭐⭐⭐⭐ 双侧提示 + LLM 原型增强 + 三方面蒸馏的组合有新意,但各单独组件并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个分类 + 2 个检索数据集,三种评测协议,详尽消融
  • 写作质量: ⭐⭐⭐⭐⭐ 问题诊断清晰,方法动机明确,消融层层递进
  • 价值: ⭐⭐⭐⭐ 对遥感 VLM 适配有实用价值,LLM 辅助原型构建思路有启发性\n