GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration¶

会议: CVPR 2026 arXiv: 2603.13068 代码: https://github.com/yihaoding/geochemad 领域: 模型压缩 关键词: 地球化学异常检测, 无监督学习, Transformer, 基准数据集, 矿产勘探

一句话总结¶

提出 GeoChemAD 开源基准数据集和 GeoChemFormer 框架，通过空间上下文学习与元素依赖建模实现无监督地球化学异常检测，在8个子集上平均 AUC 达到 0.7712。

地球化学异常检测（GAD）在矿产勘探中至关重要——通过发现元素浓度偏离区域基线的异常来指示矿化区域。表层地球化学分布是原始就位和次生散布过程(风化、侵蚀)的产物，采集的数据可能反映多阶段、多来源的成矿过程，导致高度空间不连续性、不确定性和随机性。现有研究存在三个关键问题：

传统统计方法(PCA、因子分析)难以捕获复杂非线性模式。深度学习方法如AE/VAE能建模成分关系但忽略空间依赖。CNN受限于固定感受野，Graph模型受限于深度和表征能力。Transformer在GAD中的应用尚处初期，缺乏对自监督预训练的系统研究。

本文贡献分两部分：(1) GeoChemAD 基准数据集；(2) GeoChemFormer 两阶段框架： - 第一阶段：空间上下文学习（SCL），从邻域样本学习空间地球化学表示 - 第二阶段：元素依赖建模用于异常检测，通过重建误差计算异常分数

GeoChemAD 数据集：来自西澳大利亚地质调查局（GSWA）加速地球科学计划的公开数据，包含8个子集，覆盖3种采样源（沉积物2个、岩屑3个、土壤3个），4种目标元素（Au, Cu, W, Ni），空间尺度从 6 km² 到 8500 km²。每个子集提供地球化学样本CSV（含元数据、空间坐标、124-126种元素浓度）和已知矿化位点CSV。数据保留异常值(如-9999, -0.5)以维护完整性，需要适当预处理。所有数据使用GDA2020坐标系确保空间一致性。相比已有研究(多为单区域、单元素、数据不公开)，这是首个标准化的多场景开源GAD基准。
空间上下文学习（SCL）：对于查询位置 $p_i$，用 KD-tree 检索 $K$ 个最近邻，构建邻域token序列 $\mathcal{S} = [\mathbf{e}, \mathbf{q}_i, \mathbf{t}_1, \ldots, \mathbf{t}_K]$，其中 $\mathbf{e}$ 为目标元素token，$\mathbf{q}_i$ 为查询位置编码，$\mathbf{t}_j = [\Delta x_j, \Delta y_j, \mathbf{f}_j]$ 包含相对空间偏移和浓度向量。Transformer编码器处理后得到空间上下文表示 $\mathbf{q}_i'$，训练目标为预测查询位置目标元素浓度：

$$\mathcal{L}_{\text{sc}} = \frac{1}{N}\sum_{i=1}^{N}(\hat{y}_i - y_i)^2$$

核心思想：模型仅从邻域信息预测中心点浓度，迫使其学习地质空间上下文而非简单记忆。

元素依赖建模：第二阶段将SCL学到的空间表示作为地质上下文token，与各元素token拼接，通过Transformer编码器学习元素间依赖关系。异常分数定义为所有元素的平均重建误差：

$$s_i = \frac{1}{C}\sum_{c=1}^{C}(x_{i,c} - \hat{x}_{i,c})^2$$

偏离已学习元素依赖模式的样本将获得更高异常分数。

两阶段训练：第一阶段用MSE损失预训练SCL（20-60 epochs），第二阶段用重建误差进行异常检测。评估指标为AUC（20次重复随机采样背景样本取平均）。数据预处理包括：CLR/ILR变换处理成分封闭问题、PCA/因果发现/LLM辅助特征选择、IDW/Kriging空间插值。

数据集	GeoChemFormer (T2)	Vanilla Transformer (T1)	AE	VAE-GAN	最佳基线
sed1	0.7228	0.7111	0.5851	0.6843	T1: 0.7111
rock1	0.7844	0.7031	0.5516	0.6953	T1: 0.7031
soil1	0.8704	0.7242	0.5934	0.7124	T1: 0.7242
soil3	0.8334	0.6101	0.5544	0.6160	VAE-CG: 0.6509
平均	0.7712	0.7147	0.7046	0.7279	VAE-G: 0.7279

数据仅来自西澳单一地理区域，其他大陆/地质背景(如热带风化环境、冰川地貌)的泛化性未验证
正样本（矿化位点）数量有限（7-32个），评估的统计稳健性受限，AUC可能波动较大
未考虑时间维度（不同时期采样的变化以及风化/侵蚀的动态影响）
部分子集上深度生成模型（AE）仍优于GeoChemFormer（如rock2 AUC 0.9185 vs T2 0.8050, rock3 AUC 0.8446 vs T2 0.7302），说明Transformer在小样本/高对比度场景不一定最优
GeoChemFormer的空间上下文学习依赖KD-tree检索K近邻，在大规模数据集(>10万样本)上的可扩展性未讨论
特征选择策略(PCA/CD/LLM)的选择对结果影响大，但论文未给出自动选择最优策略的指导