AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network¶

会议: CVPR 2026 arXiv: 2603.12659 代码: https://github.com/yuhu990424/AVION (有) 领域: 遥感 关键词: 视觉-语言模型, 知识蒸馏, 参数高效微调, 遥感场景分类, 提示学习

一句话总结¶

提出 AVION 知识蒸馏框架，通过 LLM 生成语义丰富的文本原型和视觉-文本双侧提示调优，解决遥感 VLM 适配中的语义贫乏和视觉刚性问题，在少样本分类、基类到新类泛化和跨模态检索上全面超越 SOTA。

研究背景与动机¶

遥感 (RS) 视觉-语言模型（如 RemoteCLIP、GeoRSCLIP）预训练后具备强零样本能力，但面对新场景仍需高效适配。全参数微调计算成本高且易过拟合。参数高效微调 (PEFT) 是轻量级替代方案，但现有方法在遥感场景下存在两个核心瓶颈：

语义贫乏 (Semantic Poverty)：遥感数据集仅提供类别名称（如 "airport"），无法描述同一类别在不同区域、季节、传感器下的巨大视觉差异。CoOp 等方法仅从 "a photo of [CLASS]" 模板学习，文本编码器无法充分表达多样外观模式。
视觉刚性 (Visual Rigidity)：多数 PEFT 方法仅更新文本编码器而冻结视觉编码器，导致模型无法捕获遥感特有的尺度变化和跨源异质性。

核心切入角度：用大型语言模型生成丰富的类别描述作为教师信号，同时在视觉和文本两侧注入可学习提示，通过三方面对齐蒸馏实现高效适配。核心 idea：用 LLM 增强的文本原型作为教师，指导视觉-文本双侧提示学习的学生模型进行三方面蒸馏对齐。

方法详解¶

整体框架¶

AVION 采用教师-学生蒸馏架构：冻结的大型教师模型（GeoRSCLIP ViT-H/14）离线构建语义丰富的文本原型；学生模型（GeoRSCLIP ViT-B/32）在视觉和文本编码器中注入可学习提示，通过三方面对齐损失训练。推理时仅使用学生模型。

关键设计¶

LLM 域提示 + 选择性原型聚合 (Textual Prototype Enhancement)
做什么：为每个类别生成语义丰富的文本原型，替代单一类名
核心思路：(1) 用 LLM（Gemini 2.5 Flash）为每个类生成最多 50 条遥感相关描述；(2) 通过 RS-Flag 规则过滤非遥感描述；(3) 以教师视觉原型作为查询，计算每条描述的相似度；(4) 用中位数/MAD 鲁棒 z-score 剔除离群描述；(5) 按 softmax 加权聚合为最终原型，权重中包含 RS-Flag 先验加成
设计动机：LLM 生成的描述可能包含幻觉或非遥感内容，必须通过视觉原型验证和 RS-Flag 过滤。该聚合过程类似无参数交叉注意力，确保原型既语义丰富又视觉对齐
双侧深度提示调优 (Dual-Side Deep Prompt Tuning)
做什么：在学生模型的视觉和文本编码器中同时注入可学习提示
核心思路：类似 VPT 和 CoOp，在 ViT 的多层注入深度提示 token，使学生编码器在保持预训练权重冻结的前提下获得适配灵活性
设计动机：仅调整文本侧无法处理遥感图像的尺度变化和俯视视角特征；仅调整视觉侧缺乏语义指导。双侧提示使两个编码器都能在教师指导下积累遥感知识
三方面对齐蒸馏 (Tri-Aspect Alignment)
做什么：通过三种互补损失实现全面知识迁移
核心思路：
- 视觉对齐：拉近学生和教师的视觉嵌入（余弦距离）
- 文本对齐：拉近学生文本嵌入与教师语义原型（余弦距离）
- 相似度对齐：用温度缩放 KL 散度对齐模态间的概率分布
设计动机：视觉对齐解决视觉刚性，文本对齐解决语义贫乏，logit 对齐传递类间关系的隐式知识

损失函数 / 训练策略¶

总目标为任务损失 + 三种对齐损失的加权和。设置视觉和文本对齐权重 0.5，logit 对齐权重 1.0，logit 损失使用 30% 线性 warm-up。蒸馏温度 tau=2。AdamW 优化器，lr 5e-4，batch size 4。所有实验在单张 NVIDIA L4 GPU 上完成。

实验关键数据¶

主实验¶

数据集	指标	AVION	之前SOTA (APPLeNet)	提升
6 数据集平均 (1-shot)	Accuracy	74.27%	74.27%	持平
6 数据集平均 (8-shot)	Accuracy	91.85%	89.20%	+2.65pp
6 数据集平均 (16-shot)	Accuracy	93.69%	91.61%	+2.08pp
6 数据集平均 (B2N)	HM	87.05%	83.84%	+3.21pp
6 数据集平均 (B2N)	Novel	79.94%	75.75%	+4.19pp
RSITMD	mR	52.92%	-	+1.11pp vs GeoRSCLIP-FT
RSICD	mR	39.80%	-	+0.93pp vs GeoRSCLIP-FT

消融实验¶

配置	HM (%)	1-shot (%)	说明
B0: CoOp-style 浅层文本提示	78.88	69.98	基线
B1: + 深度提示	66.71	66.95	Novel 退化严重
B2: + 视觉对齐	72.74	70.21	正则化恢复泛化
B5: + LLM 原型 + 选择性聚合	83.05	72.52	最大 HM 提升
B7: + logit 对齐 + warm-up	87.05	74.27	全面最优

关键发现¶

AVION 是唯一在 base-to-novel 设置中同时超过 GeoRSCLIP 基线的方法（Novel 79.94% vs 79.75%）
随着 shot 数增加，AVION 与次优方法差距从 0pp 扩大到 +2.65pp
LLM 域提示 + 选择性聚合是最大贡献组件（HM +10.31pp）
t-SNE 可视化显示 AVION 在 novel 类上保持良好的多模态对齐

亮点与洞察¶

精准诊断了遥感 PEFT 的两个核心瓶颈，并系统性地各个击破
选择性原型聚合用无参数交叉注意力将 LLM 知识与视觉语义对齐，既利用丰富语义又过滤幻觉
三方面蒸馏的分步消融清晰，每个组件贡献有量化证据
跨模态检索中用更少可训练参数超过全参数微调

局限性 / 可改进方向¶

教师模型离线预计算仍有开销，类别极多时可能不够高效
LLM 生成描述质量依赖提示设计，不同 LLM 效果差异未探索
仅在光学遥感上验证，SAR 等其他模态适用性未知
实验仅使用 RS-specific VLM，对通用 CLIP 的泛化未验证

评分¶

新颖性: ⭐⭐⭐⭐ 双侧提示 + LLM 原型增强 + 三方面蒸馏的组合有新意，但各单独组件并非全新
实验充分度: ⭐⭐⭐⭐⭐ 6 个分类 + 2 个检索数据集，三种评测协议，详尽消融
写作质量: ⭐⭐⭐⭐⭐ 问题诊断清晰，方法动机明确，消融层层递进
价值: ⭐⭐⭐⭐ 对遥感 VLM 适配有实用价值，LLM 辅助原型构建思路有启发性\n