LLaVA-LE: Large Language-and-Vision Assistant for Lunar Exploration¶

会议: CVPR 2026
arXiv: 2603.24696
代码: https://github.com/OSUPCVLab/LLaVA-LE
领域: 遥感 / 行星科学
关键词: 月球探测, 视觉语言模型, 地质理解, 多模态推理, 领域微调

一句话总结¶

LLaVA-LE 是首个面向月球探测的视觉语言模型，通过构建大规模真实月球图像-文本数据集 LUCID（96K 图像+81K QA对）和两阶段课程学习微调 LLaVA，在月球地质理解和多模态推理上实现 3.3× 基线提升。

VLM 在自然图像理解方面取得了巨大进展，但在行星科学领域几乎空白。主要原因是缺乏大规模高质量的行星图像-文本配对数据。现有月球数据集规模小、单模态、常包含合成数据，不适合训练现代 VLM。

核心矛盾：行星遥感与自然图像理解本质不同——月球地质分析需要跨物理模态（光学、重力异常、地形坡度）的联合推理，单张图像只能提供表面反射信息，不足以理解地质结构。

本文目标：构建首个基于真实 NASA 任务数据的大规模多模态月球数据集，并训练一个能进行月球地质描述、地质问答和多模态推理的视觉语言助手。

数据构建 → 两阶段微调。数据来自 LROC（高分辨率光学）、GRAIL（重力异常）、LOLA（地形坡度）三个 NASA 任务，通过 GPT-5 生成科学描述和 QA 对。模型基于 LLaVA 框架，用 CLIP 视觉编码器 + LLM 进行两阶段训练。

LUCID 数据集构建:
- 功能：提供 96K 全色图像配详细科学描述 + 81K VQA 对
- 核心思路：从 LROC WAC 获取全色月球图像，使用结构化 prompt 调用 GPT-5 生成包含地质背景、地形形态、推断地下特征的详细科学描述。然后从描述中衍生三类 QA：详细描述、对话、推理
- 设计动机：真实数据+GPT-5 标注的组合，平衡了数据规模和标注质量
两阶段课程学习:
- 功能：渐进式地将通用 VLM 适配到行星科学领域
- 核心思路：Stage 1（概念对齐）——用图像-描述对微调，让模型学会月球地质的专用术语和视觉-语义映射。Stage 2（指令微调）——用 QA 对微调，增强模型的交互问答和推理能力
- 设计动机：直接用 QA 微调效果不好，需要先建立领域概念基础再做指令微调
多层次评测基准:
- 功能：评估模型在不同推理复杂度下的表现
- 核心思路：设计 Detailed（详细描述）、Conversation（对话）、Reasoning（推理）三个维度的评测，使用 GPT-4 和 Gemini 双评委打分
- 设计动机：单一指标不足以评估领域 VLM，需要多维度度量

标准 LLaVA 训练策略：Stage 1 冻结 LLM 只训练投影层用于对齐，Stage 2 全部解冻进行指令微调。

模型	Detailed	Conversation	Reasoning	Overall	相对Judge得分
Base LLaVA	低	低	低	~0.32	—
LLaVA-LE Stage 1	中	中	中	~0.51	—
LLaVA-LE Stage 2	高	高	1.070	~1.06	超越评委参考分

LLaVA-LE Stage 2 相对 Base LLaVA 实现 3.3× 整体提升，推理维度得分 1.070 甚至超过评委自身的参考答案。