GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration¶

日期: 2026-03-13
arXiv: 2603.13068
代码: GeoChemAD
领域: AI for Science / 异常检测
关键词: geochemical anomaly detection, unsupervised learning, benchmark, transformer, mineral exploration

一句话总结¶

发布 GeoChemAD，首个开源多区域多元素地球化学异常检测 benchmark（8 个子集），并提出 GeoChemFormer——基于自监督预训练的 Transformer 框架，学习目标元素感知的地球化学表征，在所有子集上 consistently 优于现有无监督方法。

研究背景与动机¶

领域现状: 地球化学异常检测（GAD）是矿产勘探的关键环节——通过识别元素浓度偏离区域基线的样本来发现潜在矿化区。深度学习（AE、VAE、Transformer）已被应用于此。
现有痛点:
- 绝大多数研究使用私有数据集，结果不可复现
- 几乎所有工作只在单一区域（中国某地区）+ 单一元素（金）上评测
- 无监督方法检测到的异常可能与目标矿化元素无关
核心矛盾: 缺乏标准 benchmark 导致方法无法公平比较，泛化能力未知；现有方法不区分异常是否与目标元素相关。
切入角度: 从西澳大利亚地质调查（GSWA）公开数据构建多区域、多元素、多采样源的标准化 benchmark。
核心 idea: 开源 benchmark + GeoChemFormer（自监督预训练学习目标元素感知表征，用于异常检测和空间插值）。

方法详解¶

数据集（GeoChemAD）¶

数据来源：GSWA 公开地质调查数据
8 个子集：覆盖不同区域、采样类型（土壤/沉积物/岩屑）、目标元素（Au/W/Cu）
包含已验证矿化位点作为评估参考
提供标准化格式：样本 CSV（坐标+多元素浓度）+ 矿化位点 CSV

GeoChemFormer 框架¶

自监督预训练:
- Masked element prediction：随机遮盖部分元素浓度，让模型从剩余元素和空间邻域恢复
- 学习多元素地球化学关系和空间相关性
- 目标元素感知：预训练任务特别关注目标元素的重建
Transformer 架构:
- 输入：空间坐标 + 多元素浓度向量
- 空间注意力捕获长程依赖（不受固定感受野限制）
- 输出：潜在表征 → 重建误差作为异常分数
双重应用:
- 异常检测：重建误差高 = 偏离正常模式 = 潜在矿化
- 空间插值：利用学到的表征预测未采样位置的元素浓度

训练策略¶

完全无监督——不需要矿化标签
自监督预训练 → 重建基异常检测

实验关键数据¶

跨 8 个子集的异常检测性能¶

方法	平均 AUROC	平均 F1
Isolation Forest	~0.65	~0.30
AE	~0.68	~0.35
VAE	~0.69	~0.36
GeoChemFormer	~0.75+	~0.42+

关键发现¶

GeoChemFormer 在所有 8 个子集上都最优——泛化性最好
统计方法（IF、PCA）在简单场景可用但复杂场景崩溃
目标元素感知预训练是关键——无此设计的 Transformer 仅略优于 AE
不同区域和元素的最优检测阈值差异大——需要自适应策略

亮点与洞察¶

开源 benchmark 填补了 GAD 领域标准化评测的空白——8 个子集覆盖多维度变化，为后续研究提供公平比较基础
目标元素感知解决了"检测到异常但与目标矿化无关"的实际问题
自监督预训练让 Transformer 在小样本地质数据上也能学到有用表征

局限性 / 可改进方向¶

数据仅来自西澳——其他地质背景（热带、极地）的适用性未验证
矿化位点标签仍然稀疏，评估可能存在假阴性
未考虑地质先验知识（断裂带、地层接触带等）的显式引入
空间插值功能展示不足，缺少与克里金等传统方法的对比

评分¶

新颖性: ⭐⭐⭐ Transformer + 自监督在 GAD 的应用非全新，但目标元素感知有亮点
实验充分度: ⭐⭐⭐⭐ 8 个子集 + 多种基线 + 多指标，作为 benchmark 论文很全面
写作质量: ⭐⭐⭐⭐ 数据集描述详尽，任务定义清晰
价值: ⭐⭐⭐⭐ 开源 benchmark 对 AI for Geoscience 社区价值大