跳转至

CraterBench-R: Instance-Level Crater Retrieval for Planetary Scale

会议: CVPR 2026
arXiv: 2604.06245
代码: https://hf.co/datasets/jfang/CraterBench-R (有)
领域: 行星科学 / 图像检索
关键词: 陨石坑检索, 实例级检索, ViT patch token, 无训练token聚合, 两阶段检索

一句话总结

首次将陨石坑分析形式化为实例级图像检索问题——提出CraterBench-R基准(~25K火星陨石坑ID, 50K gallery, 5K查询),诊断发现单向量池化有精度上限+有监督度量学习反而退化,提出无训练的实例token聚合(选K个种子+余弦最近邻残差分配)将196个ViT patch token压缩为K个代表token做late interaction匹配,K=64时匹配全token精度且存储大幅降低,实用两阶段管线(单向量粗筛+实例token精排)恢复89-94%完整精度。

研究背景与动机

领域现状:火星轨道图像含数百万陨石坑结构。深度学习聚焦检测——输出位置/直径但不提供用于关联的视觉表示。

现实需求:科学工作流依赖于关联——跨图像的同一陨石坑去重、跨观测匹配、形态类比发现。这些本质上是检索任务而非检测任务。

核心挑战:火星陨石坑外观极度复杂——退化状态各异(原始vs严重侵蚀)、填充机制多样(沙丘/尘埃/熔岩)、照明条件跨轨道剧变→结构和光度变化极大。

表示瓶颈发现:(1) 单向量全局描述符(CLS/GeM池化)过度压缩空间细节→精度上限低;(2) 有监督度量学习(三种常用损失)一致退化检索精度(含late interaction精度)→原因是每ID仅2个视图→正样本多样性不足;(3) 保留全196个patch token的late interaction精度高但行星尺度上存储/计算不可行。

核心idea:无训练的实例token聚合——从冻结ViT特征中后处理压缩→不受微调退化之害+保持spatial detail。

方法详解

关键设计

  1. CraterBench-R基准:

    • ~25K陨石坑ID,每ID 2个gallery视图(~50K gallery图像)
    • 5K人工验证查询图像(1000个陨石坑ID × 5个视图),跨尺度和上下文变化
    • Mars CTX图像,评估协议完整
    • 直径范围1.0–401km(中位数1.5km,69%小于2km)
    • Gallery提供两种标准裁剪: 2× 和 3× 直径上下文,显式评估上下文变化鲁棒性
    • 查询经人工验证排除退化样本(纯背景、严重伪影等)
    • 评估指标: Recall@K (K=1,5,10) 和 mAP;cluster-tolerant relevance处理共视情况
  2. 基线诊断(30种冻结backbone):

    • 自监督ViT(尤其域内预训练MarsDINO)表现最佳→超越参数量多79×的通用模型
    • ViT-B/16 MarsDINO (85M参数): R@1=.374, mAP=.553——最佳单向量结果
    • 同架构 DINO: R@1=.304 → 域内预训练带来+7.0 R@1提升
    • MAE (.022) 和 CLIP (.058) 在相同ViT-B/16架构下表现极差→预训练目标比架构更重要
    • 单向量池化(CLS/GeM): 构成不可逾越的精度上限
    • 有监督度量学习(Triplet/ArcFace/SupCon): 三种损失一致退化检索精度
      • Triplet最好但仍使CLS mAP从.368降到.318,LI从.602降到.530
      • 根因: 每ID仅2个视图→正样本多样性不足→full-backbone微调破坏了late interaction需要的token级结构
  3. 实例token聚合(无训练,核心方法):

    • 第一步——种子选择: 选K个种子索引 \(\mathcal{S}=\{s_1,\ldots,s_K\}\),支持attention-based(按CLS→patch注意力权重top-K)或FPS(余弦空间最远点采样)
    • 第二步——分配: 非种子token按余弦相似度分配到最近种子,形成簇 \(C_k\)
    • 第三步——聚合: 残差形式合并种子与其簇: \(\mathbf{z}_k = \ell_2\left(\mathbf{t}_{s_k} + \frac{1}{\max(|C_k|, \epsilon)}\sum_{i \in C_k} \mathbf{t}_i\right)\)
    • 为什么用残差而非质心: 残差形式保留种子的身份信息,即使簇较小也能保持区分力;k-means质心会模糊局部形态细节
    • 产出: K个实例token用于ColBERT-style late interaction匹配: \(s_{\mathrm{LI}}(q,g) = \frac{1}{K_q}\sum_{i=1}^{K_q}\max_{1 \leq j \leq K_g} \langle \mathbf{t}_i^q, \mathbf{t}_j^g \rangle\)
    • 无训练→规避了fine-tuning退化陷阱
    • K=16时mAP比原始token选择高+17.9; K=64时≈全196 token精度且存储减少3×
  4. 两阶段行星尺度检索管线:

    • Stage 1: 单向量FAISS粗筛top-S候选(毫秒级)
    • Stage 2: 实例token late interaction精排
    • 离线聚合复杂度 \(O(NK)\)/图像;在线匹配 \(O(K^2D)\)/候选
    • S=100时恢复89-94%完整精度
    • S=500时恢复~96%

实验关键数据

核心结果——冻结backbone单向量检索

模型 参数量 池化 R@1 R@5 mAP
EfficientNet-B0 4M GAP .150 .214 .248
ResNet-50 24M GeM .142 .217 .244
ViT-S/16 DINO 22M CLS .273 .360 .420
ViT-B/8 DINO 86M GeM .304 .379 .461
ViT-B/14 DINOv2 87M Max .240 .323 .377
ViT-7B/16 DINOv3_sat 6.7B Max .330 .416 .505
ViT-B/16 MAE 86M GeM .022 .042 .043
ViT-B/16 CLIP 86M GeM .058 .091 .107
ViT-S/16 MarsDINO 22M GeM .269 .356 .412
ViT-B/16 MarsDINO 85M CLS .374 .472 .553

消融实验——实例token聚合效果

配置 mAP 说明
单向量(最佳backbone) .553 MarsDINO CLS池化上限
原始attention选择 K=16 .444 仅选token不聚合
实例token聚合 K=16 .623 +17.9 pts,显著提升
原始attention选择 K=64 .716 token增多精度上升
实例token聚合 K=64 .760 接近全token精度
全196 token late interaction .744 (MarsDINO) 完整上限
有监督Triplet微调 .318 (CLS) 退化,低于冻结 .368

关键发现

  • "fine-tuning退化" 是本文最重要的负面结果——在few-view regime(每ID仅2视图)下暴力学习不如冻结+后处理
  • 残差分配(vs k-means质心)保留了更多局部形态细节→对陨石坑边缘/纹理的区分力更强
  • 自监督ViT > CLIP > ImageNet预训练→域内预训练是检索性能的关键因素
  • Attention-based种子选择在低K值时优势最大(K=16比random多+14 mAP),高K值时差距缩小
  • 预训练目标比参数量更重要: 22M ViT-S/16 DINO (.420 mAP) 超越 86M DeiT-B/16 (.303) 和 134M VGG-16 (.068)

亮点与洞察

  • 任务重新定义的洞察力:从检测(输出坐标)到检索(输出相似匹配)的范式转换→触及行星科学工作流的真实需求
  • "有监督退化"的重要发现+解释:few-view regime下度量学习缺乏足够正样本多样性→fine-tuning反而损害通用表示→冻结+后处理是这类regime的正确策略
  • 无训练token聚合的通用性:不限于陨石坑→任何需要在冻结ViT特征上做高效检索的场景(遥感变化检测/场景去重/地理定位)都适用
  • GeoAI的方法论贡献:late interaction + 确定性压缩 + 两阶段搜索 的pipeline是domain-agnostic的

局限与展望

  • 每ID仅2个视图→更多视图可能让有监督方法重新有效
  • 当前仅Mars CTX→月球/其他行星的泛化待验证
  • 种子token选择基于attention→其他显著性指标可能更优
  • K的最优值可能因陨石坑大小/类型不同而异

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个陨石坑检索基准+无训练token聚合+有监督退化发现
  • 实验充分度: ⭐⭐⭐⭐⭐ 30种backbone+3种度量学习损失+K值消融+两阶段参数分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义→诊断→方案→实验的逻辑链清晰
  • 价值: ⭐⭐⭐⭐ 行星科学+GeoAI双重贡献+通用检索方法论

相关论文