Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents¶

会议: ICLR 2026
arXiv: 2509.23141
代码: opendatalab/Earth-Agent
领域: 遥感 / LLM Agent
关键词: 地球观测, Agent框架, MCP工具生态, 多模态遥感, benchmark

一句话总结¶

Earth-Agent是首个基于MCP工具生态的地球观测Agent框架，统一了RGB和光谱遥感数据，通过动态调用104个专家工具实现跨模态、多步骤、定量时空推理，配套提出的Earth-Bench基准包含248个专家任务和13,729张图像，实验证明Earth-Agent远超通用Agent和遥感MLLM。

研究背景与动机¶

地球观测(EO)是理解地球系统演变状态的关键任务。近年来，多模态大语言模型(MLLM)已经推动了遥感研究的进步，但仍然存在根本性的能力缺失：

现有MLLM在EO领域的痛点： - 仅限RGB感知: 无法处理光谱数据（多光谱、高光谱、SAR等），而这正是科学级遥感分析的核心 - 浅层推理: 无法进行需要多步骤推理和领域特定工具调用的复杂任务 - 缺乏定量能力: 不能执行地球物理参数反演、定量时空分析等需要精确计算的科学任务 - 无系统评估: 缺乏覆盖全模态、兼顾推理轨迹和最终结果的评估协议

现有Agent方法的局限： - 局限于RGB感知，不处理光谱数据 - 推理深度不足，工具调用能力初级 - 没有面向EO的系统评估基准

Earth-Agent的切入角度：将EO分析建模为基于ReAct风格的POMDP过程，LLM作为策略网络，通过MCP协议动态调用领域专家工具，打通RGB和光谱模态。

方法详解¶

整体框架¶

Earth-Agent采用ReAct型Agent架构，核心是一个POMDP循环： - 输入：任务目标 + 遥感图像（RGB/光谱/产品）+ 交互历史 - LLM作为策略，迭代执行：工具调用 → 内存更新 → 推理 → 动作 - 输出：定量分析结果、参数反演值、空间推理结论等

关键设计¶

MCP-Based工具生态系统: Earth-Agent集成了104个跨五大功能套件的专业工具：
Index Kit: 光谱指数计算（NDVI、NDWI等）
Inversion Kit: 地球物理参数反演（叶面积指数、地表温度等）
Perception Kit: RGB图像感知（目标检测、场景分类、语义分割等）
Analysis Kit: 时空分析（变化检测、趋势分析等）
Statistics Kit: 统计运算（区域统计、直方图分析等）

这些工具通过Model Context Protocol (MCP)进行管理，LLM可以动态组合调用。这使得Earth-Agent能够超越预训练MLLM的能力上限——对于科学级计算任务（如从Landsat数据反演地表温度），不依赖模型的内隐知识，而是调用精确的物理模型。

跨模态统一处理: 不同于仅处理RGB的现有EO Agent，Earth-Agent原生支持三类遥感数据：
光谱数据: 多光谱/高光谱卫星图像（如Landsat、Sentinel-2）
产品数据: 已处理的遥感产品（如MODIS地表温度产品）
RGB数据: 常规可见光遥感图像

LLM根据任务需求自动判断调用光谱工具还是感知工具。

ReAct-POMDP决策过程: 将复杂EO任务建模为部分可观察马尔可夫决策过程。LLM不是一次性给出答案，而是通过多轮"思考-行动-观察"循环逐步推理。例如，"分析某地区2020-2025年植被变化趋势"需要：提取多时相NDVI → 时序分析 → 趋势拟合 → 生成结论。
Earth-Bench评估基准: 包含248个由领域专家人工策划的任务，涵盖13,729张图像：
模态覆盖: 光谱（100题）+ 产品（88题）+ RGB（60题）
双层评估协议:
- 端到端评估：Accuracy（最终答案正确率）+ Efficiency（工具使用效率）
- 轨迹评估：Tool-Any-Order（是否使用了所有必要工具）、Tool-In-Order（工具顺序是否正确）、Tool-Exact-Match（逐步完全匹配）、Parameter Accuracy（工具参数准确性）

损失函数 / 训练策略¶

Earth-Agent的核心是zero-shot推理——不需要针对EO任务的额外训练。LLM通过prompt engineering和工具描述理解任务。论文同时探索了Training-Free Evolution方法（类似training-free GRPO），尝试在不微调模型权重的情况下优化Agent的工具调用策略。

实验关键数据¶

主实验¶

不同LLM后端在Earth-Bench上的表现：

模型	Tool-Any-Order	Tool-In-Order	Tool-Exact-Match	Parameter	Accuracy	Efficiency
DeepSeek-V3 (IF)	0.892	0.876	0.741	0.572	—	—
GPT-5 (AP)	0.766	0.750	0.596	0.462	59.32%	1.531
Kimi-K2 (IF)	0.806	0.799	0.633	0.522	62.71%	1.410

消融实验¶

对比	关键指标	说明
Earth-Agent vs 通用Agent框架	Accuracy	Earth-Agent显著优于LangChain等通用Agent
Earth-Agent vs 遥感MLLM	RGB benchmark	在遥感基准上超越专用遥感MLLM
光谱任务 vs RGB任务	Tool-Exact-Match	光谱任务工具链更长更复杂，精确匹配难度更大
不同LLM backbone	综合表现	更强的LLM带来更好的工具调用和推理能力

关键发现¶

DeepSeek-V3在工具使用准确性上表现最好（Tool-Any-Order 0.892）
Kimi-K2在最终答案准确率上略胜GPT-5（62.71% vs 59.32%）
工具效率(Efficiency)普遍>1.0，说明模型倾向于使用比ground truth更多的工具
参数准确性(Parameter)是最大瓶颈（最高仅0.572），说明LLM对遥感领域参数的理解仍有限
工具顺序(Tool-In-Order)与工具存在性(Tool-Any-Order)差距不大，说明模型基本能把握正确顺序

亮点与洞察¶

范式转换: 从MLLM直接回答遥感问题，转向Agent动态调用专家工具——这是EO-AI的重要方向转变
MCP协议的应用: 使用MCP管理工具是工程上的良好实践，使得工具集可扩展、可替换
双层评估设计精妙: 不仅评估最终结果，还评估推理过程（工具调用轨迹），这对理解Agent行为至关重要
实际科学价值: 地球物理参数反演、定量时空分析等任务超越了传统CV的范畴，具有真正的科学应用价值
104个工具的构建: 这本身就是一个重大的工程贡献，涵盖了EO分析的主要环节

局限与展望¶

强依赖LLM的能力上限——如果LLM推理出错，整个链路就会崩溃
参数准确性（Parameter Accuracy最高0.572）显示LLM对遥感领域知识仍有不足
工具效率>1说明模型倾向冗余调用，需要优化推理效率
仅评估了有限的几个LLM backbone，对开源小模型的适用性未知
Earth-Bench规模（248题）相比NLP/CV基准仍较小
实时性方面未讨论——多步工具调用的延迟在实际遥感应用中可能是问题
Training-Free Evolution的效果有待系统评估

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐