CraterBench-R: Instance-Level Crater Retrieval for Planetary Scale¶

会议: CVPR 2026
arXiv: 2604.06245
代码: https://hf.co/datasets/jfang/CraterBench-R (有)
领域: 行星科学 / 图像检索
关键词: 陨石坑检索, 实例级检索, ViT patch token, 无训练token聚合, 两阶段检索

一句话总结¶

首次将陨石坑分析形式化为实例级图像检索问题——提出CraterBench-R基准(~25K火星陨石坑ID, 50K gallery, 5K查询)，诊断发现单向量池化有精度上限+有监督度量学习反而退化，提出无训练的实例token聚合(选K个种子+余弦最近邻残差分配)将196个ViT patch token压缩为K个代表token做late interaction匹配，K=64时匹配全token精度且存储大幅降低，实用两阶段管线(单向量粗筛+实例token精排)恢复89-94%完整精度。

研究背景与动机¶

领域现状：火星轨道图像含数百万陨石坑结构。深度学习聚焦检测——输出位置/直径但不提供用于关联的视觉表示。

现实需求：科学工作流依赖于关联——跨图像的同一陨石坑去重、跨观测匹配、形态类比发现。这些本质上是检索任务而非检测任务。

核心挑战：火星陨石坑外观极度复杂——退化状态各异(原始vs严重侵蚀)、填充机制多样(沙丘/尘埃/熔岩)、照明条件跨轨道剧变→结构和光度变化极大。

表示瓶颈发现：(1) 单向量全局描述符(CLS/GeM池化)过度压缩空间细节→精度上限低；(2) 有监督度量学习(三种常用损失)一致退化检索精度（含late interaction精度）→原因是每ID仅2个视图→正样本多样性不足；(3) 保留全196个patch token的late interaction精度高但行星尺度上存储/计算不可行。

核心idea：无训练的实例token聚合——从冻结ViT特征中后处理压缩→不受微调退化之害+保持spatial detail。

方法详解¶

关键设计¶

CraterBench-R基准:
- ~25K陨石坑ID，每ID 2个gallery视图(~50K gallery图像)
- 5K人工验证查询图像(1000个陨石坑ID × 5个视图)，跨尺度和上下文变化
- Mars CTX图像，评估协议完整
- 直径范围1.0–401km（中位数1.5km，69%小于2km）
- Gallery提供两种标准裁剪: 2× 和 3× 直径上下文，显式评估上下文变化鲁棒性
- 查询经人工验证排除退化样本（纯背景、严重伪影等）
- 评估指标: Recall@K (K=1,5,10) 和 mAP；cluster-tolerant relevance处理共视情况
基线诊断(30种冻结backbone):
- 自监督ViT(尤其域内预训练MarsDINO)表现最佳→超越参数量多79×的通用模型
- ViT-B/16 MarsDINO (85M参数): R@1=.374, mAP=.553——最佳单向量结果
- 同架构 DINO: R@1=.304 → 域内预训练带来+7.0 R@1提升
- MAE (.022) 和 CLIP (.058) 在相同ViT-B/16架构下表现极差→预训练目标比架构更重要
- 单向量池化(CLS/GeM): 构成不可逾越的精度上限
- 有监督度量学习(Triplet/ArcFace/SupCon): 三种损失一致退化检索精度
  - Triplet最好但仍使CLS mAP从.368降到.318，LI从.602降到.530
  - 根因: 每ID仅2个视图→正样本多样性不足→full-backbone微调破坏了late interaction需要的token级结构
实例token聚合(无训练，核心方法):
- 第一步——种子选择: 选K个种子索引 \(\mathcal{S}=\{s_1,\ldots,s_K\}\)，支持attention-based（按CLS→patch注意力权重top-K）或FPS（余弦空间最远点采样）
- 第二步——分配: 非种子token按余弦相似度分配到最近种子，形成簇 \(C_k\)
- 第三步——聚合: 残差形式合并种子与其簇: \(\mathbf{z}_k = \ell_2\left(\mathbf{t}_{s_k} + \frac{1}{\max(|C_k|, \epsilon)}\sum_{i \in C_k} \mathbf{t}_i\right)\)
- 为什么用残差而非质心: 残差形式保留种子的身份信息，即使簇较小也能保持区分力；k-means质心会模糊局部形态细节
- 产出: K个实例token用于ColBERT-style late interaction匹配: \(s_{\mathrm{LI}}(q,g) = \frac{1}{K_q}\sum_{i=1}^{K_q}\max_{1 \leq j \leq K_g} \langle \mathbf{t}_i^q, \mathbf{t}_j^g \rangle\)
- 无训练→规避了fine-tuning退化陷阱
- K=16时mAP比原始token选择高+17.9; K=64时≈全196 token精度且存储减少3×
两阶段行星尺度检索管线:
- Stage 1: 单向量FAISS粗筛top-S候选(毫秒级)
- Stage 2: 实例token late interaction精排
- 离线聚合复杂度 \(O(NK)\)/图像；在线匹配 \(O(K^2D)\)/候选
- S=100时恢复89-94%完整精度
- S=500时恢复~96%

实验关键数据¶

核心结果——冻结backbone单向量检索¶

模型	参数量	池化	R@1	R@5	mAP
EfficientNet-B0	4M	GAP	.150	.214	.248
ResNet-50	24M	GeM	.142	.217	.244
ViT-S/16 DINO	22M	CLS	.273	.360	.420
ViT-B/8 DINO	86M	GeM	.304	.379	.461
ViT-B/14 DINOv2	87M	Max	.240	.323	.377
ViT-7B/16 DINOv3_sat	6.7B	Max	.330	.416	.505
ViT-B/16 MAE	86M	GeM	.022	.042	.043
ViT-B/16 CLIP	86M	GeM	.058	.091	.107
ViT-S/16 MarsDINO	22M	GeM	.269	.356	.412
ViT-B/16 MarsDINO	85M	CLS	.374	.472	.553

消融实验——实例token聚合效果¶

配置	mAP	说明
单向量(最佳backbone)	.553	MarsDINO CLS池化上限
原始attention选择 K=16	.444	仅选token不聚合
实例token聚合 K=16	.623	+17.9 pts，显著提升
原始attention选择 K=64	.716	token增多精度上升
实例token聚合 K=64	.760	接近全token精度
全196 token late interaction	.744 (MarsDINO)	完整上限
有监督Triplet微调	.318 (CLS)	退化，低于冻结 .368

关键发现¶

"fine-tuning退化" 是本文最重要的负面结果——在few-view regime(每ID仅2视图)下暴力学习不如冻结+后处理
残差分配(vs k-means质心)保留了更多局部形态细节→对陨石坑边缘/纹理的区分力更强
自监督ViT > CLIP > ImageNet预训练→域内预训练是检索性能的关键因素
Attention-based种子选择在低K值时优势最大(K=16比random多+14 mAP)，高K值时差距缩小
预训练目标比参数量更重要: 22M ViT-S/16 DINO (.420 mAP) 超越 86M DeiT-B/16 (.303) 和 134M VGG-16 (.068)

亮点与洞察¶

任务重新定义的洞察力：从检测(输出坐标)到检索(输出相似匹配)的范式转换→触及行星科学工作流的真实需求
"有监督退化"的重要发现+解释：few-view regime下度量学习缺乏足够正样本多样性→fine-tuning反而损害通用表示→冻结+后处理是这类regime的正确策略
无训练token聚合的通用性：不限于陨石坑→任何需要在冻结ViT特征上做高效检索的场景(遥感变化检测/场景去重/地理定位)都适用
GeoAI的方法论贡献：late interaction + 确定性压缩 + 两阶段搜索的pipeline是domain-agnostic的

局限与展望¶

每ID仅2个视图→更多视图可能让有监督方法重新有效
当前仅Mars CTX→月球/其他行星的泛化待验证
种子token选择基于attention→其他显著性指标可能更优
K的最优值可能因陨石坑大小/类型不同而异

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个陨石坑检索基准+无训练token聚合+有监督退化发现
实验充分度: ⭐⭐⭐⭐⭐ 30种backbone+3种度量学习损失+K值消融+两阶段参数分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义→诊断→方案→实验的逻辑链清晰
价值: ⭐⭐⭐⭐ 行星科学+GeoAI双重贡献+通用检索方法论