AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network¶

会议: CVPR 2026
arXiv: 2603.12659
代码: https://github.com/yuhu990424/AVION (有)
领域: 遥感 / 视觉语言模型
关键词: 遥感VLM适配、知识蒸馏、Prompt Tuning、文本原型增强、少样本分类

一句话总结¶

提出 AVION 蒸馏框架，通过 LLM 生成并视觉验证的文本原型解决遥感 VLM 的"语义贫乏"，通过双模态 Prompt Tuning 解决"视觉刚性"，在 6 个遥感基准上实现少样本和 base-to-novel 同时提升。

背景与动机¶

将通用 VLM 适配到遥感领域面临两个核心挑战：(1) 语义贫乏——遥感数据集通常只提供类别名称，而同一类别外观差异极大，简单模板无法刻画细粒度差异；(2) 视觉刚性——多数 PEFT 方法仅更新文本编码器而冻结视觉编码器，使模型难以捕捉遥感的尺度变化和俯视角特征。现有方法在 base 类上提升的同时会严重损害 novel 类泛化。

核心问题¶

如何在轻量级参数高效微调框架下，同时解决遥感 VLM 的文本语义不足和视觉特征适应不足问题，且不牺牲对未见类的泛化能力？

方法详解¶

整体框架¶

离线阶段用大教师模型构建高质量文本原型；在线阶段训练轻量级学生模型（仅更新 Prompt 参数），推理时教师不参与。

关键设计¶

LLM 域提示 + RS-Flag 过滤: 用 Gemini 2.5 Flash 为每个类生成最多 50 条遥感视角描述。通过 RS-Flag 规则过滤：必须含遥感正向词（overhead/aerial view/satellite imagery 等）、不含负向词（street/indoor/selfie 等）、长度 6-20 词。
选择性原型聚合: 用教师视觉编码器计算各类视觉原型（类内图像嵌入平均），与 LLM 描述计算余弦相似度，用 MAD-based 鲁棒 z-score 剔除离群描述，再以相似度 + RS-Flag 作为权重做 softmax 聚合得到最终文本原型。本质上是一个无参数交叉注意力机制。
三方面对齐蒸馏: 视觉对齐 L_img（学生视觉嵌入向教师视觉嵌入）、文本对齐 L_text（学生文本嵌入向教师增强原型）、相似度对齐 L_logit（KL 散度匹配师生的完整类间分布）。

损失函数 / 训练策略¶

总损失 L = L_task + 0.5L_img + 0.5L_text + 1.0*L_logit。L_logit 使用 30% 线性 warm-up 确保收敛稳定，蒸馏温度 tau=2。AdamW，lr=5e-4，batch 4。学生 GeoRSCLIP(ViT-B/32)，教师 GeoRSCLIP(ViT-H/14)，仅 98,304 可训练参数（<1% backbone）。单 NVIDIA L4 GPU。

实验关键数据¶

任务	指标	AVION	之前SOTA	提升
少样本 1-shot (6数据集均)	Accuracy	74.27%	74.27% (APPLeNet)	并列
少样本 8-shot	Accuracy	92.45%	89.79%	+2.65pp
少样本 16-shot	Accuracy	93.69%	90.86%	+2.83pp
Base-to-Novel (HM)	HM	87.05%	84.20% (PromptKD)	+2.85pp
Base-to-Novel (Novel)	Novel	79.94%	79.75% (GeoRSCLIP ZS)	唯一超越ZS
RSITMD 检索	mR	+1.11pp	vs GeoRSCLIP-FT	-

消融实验要点¶

B0->B7 递增消融：深度 Prompt 提升 base 但损 novel -16.01pp；视觉对齐恢复 HM +6.03pp；文本原型增强累计 HM +10.31pp 为最大贡献；logit 对齐+warm-up 再 +4.00pp。
原型消融 P0-P6：手工模板 79.52% HM -> LLM+域约束+选择性聚合 83.05% HM。
LLM 选择：GPT-5/Llama-3.1-70B/Gemini 2.5 Flash 结果差异极小（HM 86.00-87.05%），框架对 LLM 不敏感。
ImageNet 上也有效：HM 76.94% vs MMRL 74.45%。

亮点¶

AVION 是对比中唯一在 base 和 novel 类上同时超越 zero-shot 基线的 PEFT 方法
三方面对齐设计优雅：嵌入级（视觉+文本）和行为级（logit）互补
算力友好：可训练参数不到 backbone 的 1%
选择性原型聚合是一个通用技术，可扩展到其他域特定 VLM 适配

局限性 / 可改进方向¶

仅验证光学遥感，SAR/高光谱等模态未涉及
RS-Flag 规则较硬编码，对新场景可能需要手动调整 token 列表
教师模型固定为同系列的更大模型，跨架构蒸馏效果未知

与相关工作的对比¶

vs CoOp/CoCoOp: AVION novel 类显著更好（79.94% vs 69.52%/70.69%）
vs APPLeNet: 冻结视觉编码器导致 novel 类文-图嵌入错位，t-SNE 清晰可见
vs MMRL: 双侧开放但缺乏语义丰富的文本引导，novel 类多模态对齐更差
vs PromptKD: AVION HM 87.05% vs 84.20%

启发与关联¶

LLM 生成 + 视觉验证的文本原型构建思路可迁移到医学/工业等其他专业域
三方面对齐的蒸馏损失设计值得在其他 PEFT 框架中尝试

评分¶

新颖性: ⭐⭐⭐⭐ 文本原型增强+选择性聚合的组合设计优雅，解决了真实痛点
实验充分度: ⭐⭐⭐⭐⭐ 6个分类+2个检索基准，三协议，详尽消融和敏感性分析
写作质量: ⭐⭐⭐⭐ 结构清晰，图表直观，附录完整
价值: ⭐⭐⭐⭐ 遥感 PEFT 方向的扎实工作，方法有通用性