GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration¶
会议: CVPR 2025
arXiv: 2603.13068
代码: GitHub
领域: 异常检测 / 地球科学
关键词: 地球化学异常检测, 无监督学习, Transformer, 基准数据集, 矿物勘探, 自监督预训练
一句话总结¶
提出 GeoChemAD 开源基准数据集(8 个子集,覆盖多区域/多采样源/多目标元素)和 GeoChemFormer 框架,通过空间上下文自监督预训练和元素依赖建模实现无监督地球化学异常检测,在所有子集上取得最优 AUC。
研究背景与动机¶
- 地球化学异常检测(GAD)的重要性:地球化学异常指偏离区域基线的元素浓度,是矿化系统存在的关键指示信号,对矿物勘探至关重要
- 现有研究的两大瓶颈:
- 数据封闭:绝大多数 GAD 研究使用私有数据集(主要来自中国地质调查数据),结果不可复现,方法间无法公平比较
- 场景单一:多数研究仅在单一区域、单一采样源(通常为沉积物)、单一目标元素(通常为金)上评估,模型泛化能力不明
- 无监督方法的优势与不足:无监督方法无需标注矿化点,泛化性更好,但核心问题是检测到的异常可能与目标矿化元素无关
- Transformer 在 GAD 中的探索不足:虽然 Transformer 在多个领域表现优异,但在 GAD 中的应用缺乏对自监督预训练的系统研究
方法详解¶
GeoChemAD 数据集¶
- 数据来源:西澳大利亚地质调查局(GSWA)公开数据,GDA2020 坐标系
- 8 个子集:覆盖沉积物(2)、岩屑(3)、土壤(3)三种采样源
- 目标元素多样化:Au、Cu、W、Ni,突破以往仅关注金的局限
- 空间尺度跨度大:面积从 ~6 km² 到 ~8,500 km²,采样密度差异显著
- 标注:每个子集包含 7-32 个已知矿化点作为正样本
GeoChemFormer 框架(两阶段)¶
阶段 1: 空间上下文学习(SCL)¶
- 邻域构建:对每个查询点 \(p_i\),用 KD-tree 检索 K 个最近邻,每个邻居编码为 \(\mathbf{t}_j = [\Delta x_j, \Delta y_j, \mathbf{f}_j]\)(相对位移 + 多元素浓度)
- 编码器输入:\(\mathcal{S} = [\mathbf{e}, \mathbf{q}_i, \mathbf{t}_1, \ldots, \mathbf{t}_K]\),其中 \(\mathbf{e}\) 是目标元素 token,\(\mathbf{q}_i\) 是查询位置 token
- 自监督目标:从邻居样本预测查询位置的目标元素浓度,MSE 损失 \(\mathcal{L}_{sc}\)
- 设计动机:强制模型从周围地球化学模式中学习空间上下文,目标元素 token 使学到的表示与特定目标矿化元素相关
阶段 2: 元素依赖建模 + 异常检测¶
- 输入序列:\(\mathcal{S}' = [W_g \mathbf{q}'_i, \mathbf{u}_1, \ldots, \mathbf{u}_c]\),geo-context token + 各元素 token
- 元素 token 设计:\(\mathbf{u}_c = W_e[\text{Embed}(c) | W_v x_{i,c}]\),结合元素身份嵌入和浓度值
- Transformer 编码器学习在空间上下文条件下的元素间依赖关系
- 异常评分:均方重建误差 \(s_i = \frac{1}{C}\sum_{c=1}^{C}(x_{i,c} - \hat{x}_{i,c})^2\),偏离学到的元素依赖模式的样本获得高异常分
关键创新点¶
- 目标元素感知表示:通过目标元素 token 引导空间上下文学习,解决"异常可能与目标元素无关"的痛点
- 空间-成分分离:阶段 1 学空间上下文,阶段 2 学元素依赖,解耦两类信息
实验关键数据¶
主实验(8 个子集平均 AUC)¶
| 方法类别 | 代表方法 | 平均 AUC | 方差 |
|---|---|---|---|
| 统计方法 | Z-score/MD/KNN | 0.50-0.58 | 高 |
| 经典 ML | IF/OSVM | ~0.58 | 中 |
| AE | AutoEncoder | 0.7046 | 0.0220 |
| VAE-GAN | VAE-G | 0.7279 | 0.0041 |
| Vanilla Transformer | T1 | 0.7147 | 0.0031 |
| GeoChemFormer | T2 | 0.7712 | 0.0039 |
子集级亮点¶
- soil3 (Ni): GeoChemFormer AUC=0.8334,大幅超越次优 VAE-CG (0.6509)
- soil1 (Au): GeoChemFormer AUC=0.8704,超越次优 T1 (0.7242)
- rock2 (Au): AE 最优 (0.9185),说明不同地质场景下最优方法不同
数据预处理消融¶
- 成分闭合处理:ILR 变换平均最优 (0.6788),CLR 次之 (0.6771),原始浓度最差 (0.6406)
- 特征选择:LLM 辅助选择平均最优 (0.7412) vs 人工选择 (0.6419)
- 邻域大小 K:K=128 为跨数据集的合理折中,但最优 K 因数据集而异
SCL 预训练消融¶
- rock2 在 20 epochs 达到峰值 (0.919),soil2 需要 60 epochs (0.821)
- 预训练轮次需根据空间分布复杂度调整
亮点¶
- 首个开源 GAD 基准:结束了该领域长期依赖私有数据的困境,8 个子集覆盖多样场景
- 目标元素感知的无监督检测:通过目标元素 token 解决"检测异常与目标矿化无关"的核心问题
- 全面的系统性 benchmark:统计方法→经典 ML→深度生成→Transformer 的完整对比
- 数据预处理的深入分析:成分变换、特征选择、插值方法的消融为实践者提供了指导
- LLM 辅助特征选择的发现:LLM 能有效选择与矿化相关的地球化学元素组合
局限性¶
- 与 CV/ML 主流关联弱:虽投在 CVPR,但任务高度领域特化,方法可迁移性有待验证
- AUC 绝对值偏低:平均 0.77 距离实际矿物勘探可用标准仍有差距
- 正样本极少(7-32 个),评估稳定性受限(尽管做了 20 次随机采样取均值)
- 方法通用性存疑:AE 在 rock2 上 AUC=0.92 超越 GeoChemFormer (0.81),说明没有一致优势
- 缺少对 GeoChemFormer 失败 case 的深入分析:在 rock2/rock3/sed2 上表现不如 AE
- 计算开销对比缺失:KD-tree 邻域搜索 + Transformer 编码的效率如何?
评分¶
- 新颖性: ⭐⭐⭐ 方法层面创新有限(标准 Transformer + 自监督),数据集贡献更突出
- 实验充分度: ⭐⭐⭐⭐⭐ 极其全面的 benchmark 和消融分析
- 写作质量: ⭐⭐⭐⭐ 组织良好,数据集描述详尽
- 价值: ⭐⭐⭐ 对地球化学社区有基准价值,对 CV 社区的方法论启发有限