跳转至

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

日期: 2026-03-07
arXiv: 2603.07356
代码: 无
领域: LLM/NLP
关键词: Data-Centric AI, Cross-Team Validation, Domain Generalization, Agricultural Vision, Collaborative Data Collection

一句话总结

提出 AgrI Challenge 竞赛框架与 Cross-Team Validation (CTV) 评估范式,通过 12 支团队独立采集的 50,673 张树种图像,揭示单源训练存在高达 16.20% 的验证-测试泛化鸿沟,而协作多源训练可将该鸿沟压缩 82–84%。

研究背景与动机

农业视觉领域的机器学习模型长期面临实验室到田间的泛化鸿沟:在 PlantVillage 等精心策划的数据集上可达 99% 以上准确率,但部署到真实田间环境时骤降至 54%。造成这一问题的根本原因在于训练数据与部署环境之间的分布偏移(distribution shift)。

传统 ML 竞赛(如 Kaggle)聚焦于模型设计优化,数据集被视为固定资源,参赛者无需关心数据采集策略对泛化能力的影响。近年 Data-Centric AI 运动开始强调数据质量,但现有框架(如 DataPerf)仍在封闭数据集上操作,未探索不同采集方法论如何制造分布偏移

本文的核心动机是:设计一个竞赛框架,让参赛者自行采集田间数据,并通过跨团队评估系统性地量化数据采集差异对模型泛化的影响,从而验证"数据多样性是模型鲁棒性的首要决定因素"这一 Data-Centric AI 核心论点。

方法详解

整体框架

AgrI Challenge 采用两阶段竞赛设计:

  1. 数据采集阶段(2 天):12 支团队(11 支参赛队 + 组织方)在阿尔及利亚国家高等农学院(ENSA)植物园独立采集 6 种树种的田间图像。各团队自由选择采集设备、拍摄策略和环境覆盖方案,确保数据自然反映不同采集条件的多样性。
  2. 模型开发阶段(2 天):团队在国家人工智能学院(ENSIA)进行数据标注、预处理和模型训练,仅使用自身采集的数据。

六个目标树种包括:角豆树(Ceratonia siliqua)、窄叶白蜡(Fraxinus angustifolia)、阿特拉斯开心果(Pistacia atlantica)、栎树超类(Quercus spp.,合并 3 个亚种)、秘鲁胡椒树(Schinus molle)和梯普树(Tipuana tipu)。

关键设计

Cross-Team Validation (CTV) 是本文的核心评估范式,将每支团队的数据集视为独立域,包含两个互补协议:

  • TOTO (Train-on-One-Team-Only):单源泛化评估。对每支团队 \(i\),用其 70% 数据训练、30% 验证,所有其他团队数据作为测试集。重复 \(n\) 次产生完整的跨团队评估矩阵。
  • LOTO (Leave-One-Team-Out):协作多源训练评估。留出一支团队作测试,其余 \(n-1\) 支团队数据合并训练(70% 训练 / 30% 验证),重复 \(n\) 折。

数据处理流水线

  • 元数据标准化(EXIF 设备信息、64-bit 感知哈希 pHash)
  • 跨团队去重:13,579 条记录涉及 6,370 个重复组,移除 7,209 张重复图像(回收 9.6 GB 存储)
  • 统一 resize 至 336×336(双三次插值 + 中心裁剪)
  • 最终清洗数据集:47,367 张图像,11 支团队,6 个类别

基线架构:采用 DenseNet121(CNN,8M 参数)和 Swin-Tiny(Transformer,28M 参数)双架构,ImageNet-1K 预训练,AdamW 优化器(\(lr=10^{-4}\),cosine annealing),batch size 32,训练 20 epochs。

评估指标:分类准确率 + 验证-测试差距 VTG(Validation–Test Gap)= \(A_{val} - A_{test}\)

实验关键数据

主实验:TOTO 与 LOTO 对比

协议 架构 平均验证准确率 平均测试准确率 平均 VTG VTG 标准差
TOTO DenseNet121 97.40% 81.19% 16.20% 6.07%
TOTO Swin Transformer 98.59% 87.21% 11.37% 5.24%
LOTO DenseNet121 98.13% 95.31% 2.82% 3.33%
LOTO Swin Transformer 98.82% 97.04% 1.78% 2.13%

LOTO 相比 TOTO 的提升:

  • DenseNet121 测试准确率 +14.12 pp,VTG 缩减 82%(16.20% → 2.82%)
  • Swin Transformer 测试准确率 +9.83 pp,VTG 缩减 84%(11.37% → 1.78%)

分析:各团队泛化表现(LOTO 协议)

留出团队 DenseNet121 测试准确率 DenseNet121 VTG Swin 测试准确率 Swin VTG
CHAJARA 98.94% −0.68% 99.57% −0.71%
AiGro 98.73% −0.73% 99.37% −0.64%
CACTUS 97.71% +0.35% 98.58% +0.18%
The Neural Ninjas 97.69% +0.47% 98.66% +0.14%
GreenAI 97.17% +0.86% 97.86% +0.91%
RUSTICUS 97.19% +0.94% 98.23% +0.52%
SMART AGRICULTURES 94.95% +3.03% 96.57% +2.26%
Organization team 93.89% +4.34% 96.07% +2.72%
PLT 93.50% +4.41% 94.78% +3.83%
AI-4o 92.96% +5.32% 96.76% +2.21%
Scorpions 93.35% +4.77% 95.46% +3.47%
Condimenteum 87.61% +10.76% 92.57% +6.46%

关键发现

  1. 单源训练泛化鸿沟巨大:TOTO 下模型验证准确率近乎完美(97–99%),但跨团队测试时 DenseNet121 平均仅 81.19%,最差的 Organization team 仅 68.32%,VTG 高达 30.27%。
  2. 协作训练戏剧性提升泛化:LOTO 下 Organization team 从 68.32% 跃升至 93.89%(+25.57 pp),说明在孤立场景中表现糟糕的数据集在多源池中可有效贡献。
  3. 负 VTG 现象:AiGro 和 CHAJARA 在 LOTO 下呈现负 VTG(测试准确率 > 验证准确率),表明其数据分布与多源训练分布高度一致。
  4. 架构选择影响递减:TOTO 下 Swin 比 DenseNet 高 6.02 pp,LOTO 下优势收窄至 1.73 pp,说明数据多样性可部分弥补架构差距。
  5. 团队排名跨架构一致:Spearman \(\rho \geq 0.94\),残差变异主要由数据集特性而非模型驱动。
  6. 跨团队准确率矩阵:DenseNet 范围 48.2%–95.3%,Swin 范围 65.2%–98.4%,Pearson \(r=0.95\),两架构呈高度一致的跨团队转移模式。

亮点与洞察

  • CTV 评估范式新颖且实用:将每支团队视为独立域的做法,比传统随机切分更贴近真实部署场景(不同地区/设备/采集策略),是一个可迁移到其他领域的通用评估框架。
  • 数据集作为竞赛产出:50,673 张图像、40+ 种设备、跨 12 支团队的公开基准,为研究 domain shift 和 data-centric learning 提供了独特资源。
  • 教育功能:竞赛设计让学生体验完整的 ML 管线(采集→标注→预处理→训练→评估),比传统课程只做模型开发更全面。
  • 量化了"数据多样性 > 模型架构"这一论点:协作训练下架构优势从 6 pp 缩窄至 1.7 pp,直接支持 Data-Centric AI 的核心主张。

局限性 / 可改进方向

  1. 场景单一:仅 6 种树种、单一采集地点(ENSA 植物园)、2 天采集窗口,数值结论可能无法直接推广到其他作物/气候/物候阶段。
  2. 植物园背景共享:同一植物园内各类别共享部分背景和光照条件,实际开放农田的 domain shift 可能更大。
  3. 仅分类任务:未验证 CTV 在检测、分割等任务上的表现。
  4. 无 Domain Adaptation 对比:未测试对抗对齐、风格迁移、元学习等域泛化方法能否进一步缩小 TOTO 下的跨团队差距。
  5. 排除季节性特征:为避免时序偏差而排除花果等繁殖器官,但这些是植物学鉴定的关键特征,未来可通过多季节采集引入。
  6. 超参数固定:两种架构使用完全相同的超参数,未针对各自特性调优,可能低估架构潜力。

相关工作与启发

  • PlantVillage [Hughes & Salathé]:经典农业视觉基准,但实验室-田间泛化鸿沟的典型案例(99% → 54%)。
  • DataPerf [Mazumder et al.]:Data-Centric AI 基准套件,聚焦数据质量但仍在封闭数据集框架内。
  • Data Cascades [Sambasivan et al.]:92% 从业者经历系统性数据质量缺陷,强调数据问题在管线中的级联效应。
  • Tomato-Village / CropDP-181:代表从实验室到田间的新一代农业数据集。
  • 启发:CTV 框架可推广到医学影像(跨医院采集差异)、遥感(跨地区差异)等任何存在多源数据采集差异的领域。将数据采集方法学作为实验变量而非固定条件,是未来数据中心学习研究的重要方向。

评分

维度 分数 (1-5) 说明
新颖性 3.5 CTV 评估范式和竞赛设计有新意,但核心技术(DenseNet/Swin 基线)无创新
实用性 4.0 公开数据集 + 通用 CTV 框架,可直接迁移到其他领域
实验充分度 4.0 双架构 × 双协议 × 12 团队的全面实验,跨团队矩阵分析详尽
写作质量 4.0 结构清晰,可视化丰富,讨论深入
综合推荐 3.5 偏数据集/基准贡献,方法论新颖性有限,但对 Data-Centric AI 社区有价值