跳转至

Feedforward Few-shot Species Range Estimation

会议: ICML 2025
arXiv: 2502.14977
代码: GitHub
领域: 其他(生态/物种分布建模)
关键词: 物种分布建模, 少样本学习, Transformer, 空间隐式神经表示, 多模态融合

一句话总结

提出 FS-SINR(Few-shot Spatial Implicit Neural Representations),一种基于 Transformer 的前馈式少样本物种分布估计模型,无需针对新物种重新训练即可从少量观测位置(甚至零个)一次前传预测空间分布,在 IUCN 和 S&T 基准上以 2-6% 的计算时间超越 LE-SINR 等需要重新训练的方法。

研究背景与动机

领域现状:地球上大多数物种缺乏足够的观测数据来准确估计其空间分布。iNaturalist 平台记录了约 37.3 万物种的 1.3 亿次观测,但超过一半物种的观测记录不足 10 次。SINR(Cole et al., 2023)等深度学习方法通过在一个模型中联合表示数万物种取得了进展,但仍需要每个物种有较多训练样本。

现有痛点:当出现未在训练集中的新物种时,现有方法(SINR、LE-SINR)需要通过逻辑回归等方式为新物种重新训练一个嵌入向量,这在交互式探索和大规模应用中效率极低。此外,大多数物种只有极少量观测记录的现实使得标准方法的效果大打折扣。

核心矛盾:物种分布估计需要"从少量观测推断全局分布"的能力,但现有方法是"先训练再查询"的范式,无法泛化到未见物种。少样本物种分布估计还面临独特挑战:输入域固定(地球表面)、多标签(一个位置可有多物种)、标签空间巨大(数万物种)、且只有 presence-only 数据(无confirmed absences)。

本文目标 (1) 设计一次前传即可为未见物种生成分布估计的前馈模型;(2) 在极少样本(<10 个观测)下显著提升估计精度;(3) 灵活融合文本/图像等辅助元数据进一步提升效果。

切入角度:将物种嵌入从"每物种一个可学习向量"转变为"由 Transformer 从观测位置集合实时生成"——这样新物种的嵌入只需一次前传即可获得,无需重新训练。

核心 idea:用 Transformer 将变长的观测位置集合编码为物种嵌入向量,替代 SINR 中为每个物种单独学习的固定嵌入。

方法详解

整体框架

输入为目标物种的一组上下文位置 \(\mathcal{C}^t = \{c_1, \ldots, c_k\}\)(每个 \(c_i\) 为经纬度坐标)以及可选的文本/图像元数据。首先通过共享的位置编码器 \(f_\theta\) 将每个位置编码为 \(d\) 维嵌入向量(token)。这些 token 连同 CLS token 和 REG token 一起送入 Transformer 编码器 \(m_\psi\)。Transformer 输出的 CLS token 经过 species decoder MLP \(s()\) 后得到物种嵌入。对于查询位置 \(x\),将其位置嵌入 \(f_\theta(x)\) 与物种嵌入做内积再通过 sigmoid 即得到该物种在 \(x\) 处出现的概率。

关键设计

  1. 位置编码器 + Transformer 架构:

    • 功能:将变长的观测位置集合映射为固定维度的物种嵌入向量
    • 核心思路:位置编码器采用 SINR 中的多层全连接网络(带残差连接),先在大规模数据上按 SINR 方式预训练,然后丢弃分类头。Transformer 包含 4 层编码器,不使用位置编码(因为输入集合无序),而是为每种 token 添加学习的 "embedding type" 向量以区分位置/文本/图像/CLS/REG token
    • 设计动机:集合输入天然需要排列不变性(permutation invariance),Transformer 的自注意力机制恰好满足这一点。CLS token 充当全局汇聚器,将变长序列压缩为固定维度的物种表示
  2. 多模态上下文融合(文本 + 图像):

    • 功能:在位置观测之外,可选地提供文本描述(如"该物种分布在热带雨林")或物种图像作为额外上下文
    • 核心思路:文本通过冻结的 GritLM 提取嵌入,图像通过冻结的 EVA-02 ViT(在 iNat 上预训练)提取嵌入,再各自经过 2 层 MLP 映射到与位置 token 相同的空间。训练时以 0.5 概率随机 dropout 文本/图像 token、0.1 概率 dropout 位置 token,确保模型在各种输入组合下都鲁棒
    • 设计动机:对于极度稀缺观测的物种,文本中的栖息地描述(如"高海拔山地"或"沙漠")可以提供位置数据无法给予的生态先验,显著缩小搜索空间。图像提供物种外观线索但信息量有限
  3. Batch 内损失函数 \(\mathcal{L}_{\text{AN-full-b}}\):

    • 功能:将 SINR 的全物种 assume-negative 损失适配到前馈架构
    • 核心思路:由于 FS-SINR 没有 per-species 权重矩阵 \(W\),无法一次对所有物种计算损失。改为在 batch 内的 \(s^b\) 个物种上计算:\(\mathcal{L}_{\text{AN-full-b}}(\hat{y}, z^b) = -\frac{1}{s^b}\sum_{j=1}^{s^b}[\mathbb{1}_{[z^b=j]}\lambda\log(\hat{y}_j) + \mathbb{1}_{[z^b \neq j]}\log(1-\hat{y}_j) + \log(1-\hat{y}'_j)]\),其中 \(\hat{y}'_j\) 为随机伪缺失位置的预测
    • 设计动机:保留了 presence + pseudo-absence 对比的核心结构,同时适配了前馈架构的特点。batch size 2048 确保每批包含足够多物种形成有意义的负样本

损失函数 / 训练策略

使用 batch 内 assume-negative-full 损失,batch size 2048。训练数据包含 iNaturalist 的 3550 万记录(44,422 物种,排除评估物种)、12.7 万条文本描述和 20 万张图像。每个训练样本提供 20 个上下文位置。总参数量 8.2M(SINR 为 11.9M,因为不需要 per-species 嵌入)。

实验关键数据

主实验

方法 IUCN MAP (1-shot) IUCN MAP (5-shot) IUCN MAP (10-shot) S&T MAP (1-shot) S&T MAP (5-shot) 需要重训练
SINR ~0.15 ~0.30 ~0.38 ~0.30 ~0.55
LE-SINR (RT) ~0.25 ~0.40 ~0.48 ~0.45 ~0.65
Active SINR ~0.10 ~0.20 ~0.25 ~0.25 ~0.40
FS-SINR ~0.22 ~0.38 ~0.45 ~0.45 ~0.68
FS-SINR (RT) ~0.35 ~0.48 ~0.53 ~0.55 ~0.72

消融实验

配置 IUCN MAP (0-shot) S&T MAP (0-shot) 说明
SINR (TST, 上界) 0.67 0.77 训练集包含评估物种
FS-SINR (无元数据) 0.05 0.18 仅 CLS token 输出
FS-SINR (Habitat Text) 0.33 0.53 栖息地描述
FS-SINR (Range Text) 0.52 0.64 分布范围描述
FS-SINR (Image) 0.19 0.38 仅图像
FS-SINR (Image + RT) 0.46 0.64 图像有时反而干扰

关键发现

  • 文本 >> 图像:Range text 提供的分布信息远比单张图像丰富(0.52 vs 0.19 on IUCN),这很直觉——"分布在南美安第斯山脉"比一张鸟的照片提供了更直接的空间先验
  • 图像可能带来负面效果:在 IUCN 上,Image + Range Text (0.46) 反而低于纯 Range Text (0.52),因为图像可能引入错误的空间偏差
  • 速度优势巨大:在相同硬件上,FS-SINR 生成所有评估物种的分布估计只需 LE-SINR 计算时间的 2%(CPU)或 6%(GPU),因为无需逐物种重新训练
  • 即使仅 1 个观测点也能给出合理估计:模型学到了强大的空间先验——从一个非洲观测点可以推断出该物种可能分布在整个撒哈拉以南非洲

亮点与洞察

  • "集合到嵌入"的设计思路非常优雅:将 few-shot 学习从"逐物种优化"转变为"前馈编码",核心在于用 Transformer CLS token 替代了可学习的 per-species 权重向量。这种思路可以推广到任何需要从少量示例推断类别嵌入的场景(如 few-shot 图像分类、用户画像等)
  • 文本作为空间先验的有效性:简单的文本描述(如"分布在沙漠/雨林/高山")配合单个观测位置就能显著改变模型预测,展示了语言模型知识在生态学中的实用价值。这启发了一种新范式:用 LLM 生成的描述作为弱监督信号辅助稀缺标注场景
  • 参数量反而更少(8.2M vs 11.9M):虽然增加了 Transformer 模块,但消除了 per-species 嵌入矩阵 \(W \in \mathbb{R}^{d \times s}\)\(s\) 为物种数),总参数反而减少 30%

局限与展望

  • 确定性输出:给定相同输入,模型总是输出相同的分布图,但在少样本场景下,同一组观测点实际上可能对应多种合理的分布。引入随机性(如 latent sampling)生成多个候选分布并量化不确定性是重要的扩展方向
  • 仅支持 presence-only:模型无法利用 confirmed absence 信息(已知某物种不在某处)。为不同 token 类型添加"absence" embedding 类型是一个自然的改进
  • 训练数据偏差:iNaturalist 数据严重偏向北美和欧洲等公民科学活跃地区,导致模型在非洲、亚洲等地区表现较差。论文在附录中分析了这一偏差但未提出解决方案
  • 评估局限:IUCN 和 S&T 的专家分布图本身也有误差,且主要覆盖脊椎动物和鸟类,对植物和无脊椎动物的适用性未知

相关工作与启发

  • vs SINR (Cole et al., 2023):SINR 为每个物种学习固定嵌入 \(w_j\),无法处理未见物种。FS-SINR 用 Transformer 从观测集动态生成嵌入,实现了真正的泛化。但 SINR 在数据充足时(>50 观测)表现仍有竞争力
  • vs LE-SINR (Hamilton et al., 2024):LE-SINR 利用文本信息改善零样本/少样本估计,但仍需为每个新物种重新训练分类器。FS-SINR 在使用相同元数据的条件下全面超越 LE-SINR,且推理速度快 16-50 倍
  • vs Prototypical Networks (Snell et al., 2017):Proto SINR baseline 直接对观测位置的嵌入取均值作为物种嵌入,性能远不如 FS-SINR。这说明 Transformer 的注意力机制在整合多个观测点时学到了比简单平均更有效的聚合策略

评分

  • 新颖性: ⭐⭐⭐⭐ 将前馈 few-shot 思想引入物种分布建模是重要的方向突破
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个基准数据集的全面评估,多种 baseline 对比,丰富的消融实验和可视化
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法描述简洁、可视化效果出色
  • 价值: ⭐⭐⭐⭐ 对生态保护有实际应用价值,前馈范式的实用优势明显

相关论文