GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration¶
会议: CVPR 2026 arXiv: 2603.13068 代码: https://github.com/yihaoding/geochemad 领域: 模型压缩 关键词: 地球化学异常检测, 无监督学习, Transformer, 基准数据集, 矿产勘探
一句话总结¶
提出 GeoChemAD 开源基准数据集和 GeoChemFormer 框架,通过空间上下文学习与元素依赖建模实现无监督地球化学异常检测,在8个子集上平均 AUC 达到 0.7712。
研究背景与动机¶
地球化学异常检测(GAD)在矿产勘探中至关重要——通过发现元素浓度偏离区域基线的异常来指示矿化区域。表层地球化学分布是原始就位和次生散布过程(风化、侵蚀)的产物,采集的数据可能反映多阶段、多来源的成矿过程,导致高度空间不连续性、不确定性和随机性。现有研究存在三个关键问题:
- 数据不可复现:大多数研究使用私有数据集(主要来自中国地质调查局),无法进行公平对比和结果复现。部分论文甚至遗漏关键元数据
- 场景单一:通常只关注单一区域、单一采样源(沉积物)和单一目标元素(金),模型在不同空间尺度、采样密度和元素类型下的泛化能力未知
- 异常与目标脱节:无监督方法检测到的异常可能与实际矿化无关或与目标元素不相关——这是实际勘探中的核心痛点
传统统计方法(PCA、因子分析)难以捕获复杂非线性模式。深度学习方法如AE/VAE能建模成分关系但忽略空间依赖。CNN受限于固定感受野,Graph模型受限于深度和表征能力。Transformer在GAD中的应用尚处初期,缺乏对自监督预训练的系统研究。
方法详解¶
整体框架¶
本文贡献分两部分:(1) GeoChemAD 基准数据集;(2) GeoChemFormer 两阶段框架: - 第一阶段:空间上下文学习(SCL),从邻域样本学习空间地球化学表示 - 第二阶段:元素依赖建模用于异常检测,通过重建误差计算异常分数
关键设计¶
-
GeoChemAD 数据集:来自西澳大利亚地质调查局(GSWA)加速地球科学计划的公开数据,包含8个子集,覆盖3种采样源(沉积物2个、岩屑3个、土壤3个),4种目标元素(Au, Cu, W, Ni),空间尺度从 6 km² 到 8500 km²。每个子集提供地球化学样本CSV(含元数据、空间坐标、124-126种元素浓度)和已知矿化位点CSV。数据保留异常值(如-9999, -0.5)以维护完整性,需要适当预处理。所有数据使用GDA2020坐标系确保空间一致性。相比已有研究(多为单区域、单元素、数据不公开),这是首个标准化的多场景开源GAD基准。
-
空间上下文学习(SCL):对于查询位置 \(p_i\),用 KD-tree 检索 \(K\) 个最近邻,构建邻域token序列 \(\mathcal{S} = [\mathbf{e}, \mathbf{q}_i, \mathbf{t}_1, \ldots, \mathbf{t}_K]\),其中 \(\mathbf{e}\) 为目标元素token,\(\mathbf{q}_i\) 为查询位置编码,\(\mathbf{t}_j = [\Delta x_j, \Delta y_j, \mathbf{f}_j]\) 包含相对空间偏移和浓度向量。Transformer编码器处理后得到空间上下文表示 \(\mathbf{q}_i'\),训练目标为预测查询位置目标元素浓度:
$\(\mathcal{L}_{\text{sc}} = \frac{1}{N}\sum_{i=1}^{N}(\hat{y}_i - y_i)^2\)$
核心思想:模型仅从邻域信息预测中心点浓度,迫使其学习地质空间上下文而非简单记忆。
- 元素依赖建模:第二阶段将SCL学到的空间表示作为地质上下文token,与各元素token拼接,通过Transformer编码器学习元素间依赖关系。异常分数定义为所有元素的平均重建误差:
$\(s_i = \frac{1}{C}\sum_{c=1}^{C}(x_{i,c} - \hat{x}_{i,c})^2\)$
偏离已学习元素依赖模式的样本将获得更高异常分数。
损失函数 / 训练策略¶
两阶段训练:第一阶段用MSE损失预训练SCL(20-60 epochs),第二阶段用重建误差进行异常检测。评估指标为AUC(20次重复随机采样背景样本取平均)。数据预处理包括:CLR/ILR变换处理成分封闭问题、PCA/因果发现/LLM辅助特征选择、IDW/Kriging空间插值。
实验关键数据¶
主实验¶
| 数据集 | GeoChemFormer (T2) | Vanilla Transformer (T1) | AE | VAE-GAN | 最佳基线 |
|---|---|---|---|---|---|
| sed1 | 0.7228 | 0.7111 | 0.5851 | 0.6843 | T1: 0.7111 |
| rock1 | 0.7844 | 0.7031 | 0.5516 | 0.6953 | T1: 0.7031 |
| soil1 | 0.8704 | 0.7242 | 0.5934 | 0.7124 | T1: 0.7242 |
| soil3 | 0.8334 | 0.6101 | 0.5544 | 0.6160 | VAE-CG: 0.6509 |
| 平均 | 0.7712 | 0.7147 | 0.7046 | 0.7279 | VAE-G: 0.7279 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| SCL预训练 20 epochs | rock2 AUC=0.919 | 小数据集快速收敛 |
| SCL预训练 40 epochs | sed1 AUC=0.743 | 沉积物数据需更多训练 |
| K=16 (邻域大小) | soil2最优 | 土壤样本适合紧凑邻域 |
| K=256 (邻域大小) | sed1最优=0.720 | 沉积物需更大空间上下文 |
| ILR变换 | 平均0.6788 | Transformer类模型最佳预处理 |
| LLM特征选择 | 平均0.7412 | 自动化特征选择优于人工 |
关键发现¶
- GeoChemFormer 在8个子集中5个取得最佳成绩,且方差最低(0.0039),稳定性强
- 空间上下文学习对性能提升至关重要,尤其在沉积物和土壤数据集上
- 数据预处理策略(特征选择、变换方式)对不同模型影响差异显著
亮点与洞察¶
- 填补领域空白:提供首个公开、多区域、多元素、多采样源的GAD基准数据集
- 目标元素感知:通过target-element token设计,使异常检测与目标矿化元素关联
- 两阶段设计解耦空间上下文和元素依赖,预训练策略自然且有效
局限性 / 可改进方向¶
- 数据仅来自西澳单一地理区域,其他大陆/地质背景(如热带风化环境、冰川地貌)的泛化性未验证
- 正样本(矿化位点)数量有限(7-32个),评估的统计稳健性受限,AUC可能波动较大
- 未考虑时间维度(不同时期采样的变化以及风化/侵蚀的动态影响)
- 部分子集上深度生成模型(AE)仍优于GeoChemFormer(如rock2 AUC 0.9185 vs T2 0.8050, rock3 AUC 0.8446 vs T2 0.7302),说明Transformer在小样本/高对比度场景不一定最优
- GeoChemFormer的空间上下文学习依赖KD-tree检索K近邻,在大规模数据集(>10万样本)上的可扩展性未讨论
- 特征选择策略(PCA/CD/LLM)的选择对结果影响大,但论文未给出自动选择最优策略的指导
相关工作与启发¶
- vs 传统统计方法(Z-score, Mahalanobis):平均AUC仅0.50-0.53,无法捕获地球化学数据中的复杂非线性模式
- vs AE/VAE系列:AE在某些子集上表现优异(rock2达0.9185),但跨数据集方差大(0.0220),稳定性差。GeoChemFormer通过空间上下文学习实现更稳定的跨场景性能
- vs VAE-GAN:VAE-GAN平均AUC 0.7279且方差低(0.0041),是非Transformer方法中最稳定的,但GeoChemFormer仍高出0.0433
- vs 已有GAD深度学习研究(Yang2023, Yu2024等):这些工作用私有数据+单区域评估,无法公平对比。GeoChemAD的标准化数据集使未来对比成为可能
- 启发:SCL的"从邻域预测中心"策略类似masked预测范式,可迁移到其他地理空间异常检测(环境监测、城市热岛效应)。目标元素感知的设计理念——让模型关注"与什么相关的异常"而非"是否异常"——对任何领域的异常检测都有借鉴价值
评分¶
- 新颖性: ⭐⭐⭐ 方法设计合理但不算突破性,主要贡献在数据集
- 实验充分度: ⭐⭐⭐⭐⭐ 12种基线对比+多维度预处理分析+消融+案例分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集描述详尽
- 价值: ⭐⭐⭐⭐ 开源数据集对地球科学+AI交叉领域有重要推动作用