AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision¶

日期: 2026-03-07
arXiv: 2603.07356
代码: 无
领域: LLM/NLP
关键词: Data-Centric AI, Cross-Team Validation, Domain Generalization, Agricultural Vision, Collaborative Data Collection

一句话总结¶

提出 AgrI Challenge 竞赛框架与 Cross-Team Validation (CTV) 评估范式，通过 12 支团队独立采集的 50,673 张树种图像，揭示单源训练存在高达 16.20% 的验证-测试泛化鸿沟，而协作多源训练可将该鸿沟压缩 82–84%。

研究背景与动机¶

农业视觉领域的机器学习模型长期面临实验室到田间的泛化鸿沟：在 PlantVillage 等精心策划的数据集上可达 99% 以上准确率，但部署到真实田间环境时骤降至 54%。造成这一问题的根本原因在于训练数据与部署环境之间的分布偏移（distribution shift）。

传统 ML 竞赛（如 Kaggle）聚焦于模型设计优化，数据集被视为固定资源，参赛者无需关心数据采集策略对泛化能力的影响。近年 Data-Centric AI 运动开始强调数据质量，但现有框架（如 DataPerf）仍在封闭数据集上操作，未探索不同采集方法论如何制造分布偏移。

本文的核心动机是：设计一个竞赛框架，让参赛者自行采集田间数据，并通过跨团队评估系统性地量化数据采集差异对模型泛化的影响，从而验证"数据多样性是模型鲁棒性的首要决定因素"这一 Data-Centric AI 核心论点。

方法详解¶

整体框架¶

AgrI Challenge 采用两阶段竞赛设计：

数据采集阶段（2 天）：12 支团队（11 支参赛队 + 组织方）在阿尔及利亚国家高等农学院（ENSA）植物园独立采集 6 种树种的田间图像。各团队自由选择采集设备、拍摄策略和环境覆盖方案，确保数据自然反映不同采集条件的多样性。
模型开发阶段（2 天）：团队在国家人工智能学院（ENSIA）进行数据标注、预处理和模型训练，仅使用自身采集的数据。

六个目标树种包括：角豆树（Ceratonia siliqua）、窄叶白蜡（Fraxinus angustifolia）、阿特拉斯开心果（Pistacia atlantica）、栎树超类（Quercus spp.，合并 3 个亚种）、秘鲁胡椒树（Schinus molle）和梯普树（Tipuana tipu）。

关键设计¶

Cross-Team Validation (CTV) 是本文的核心评估范式，将每支团队的数据集视为独立域，包含两个互补协议：

TOTO (Train-on-One-Team-Only)：单源泛化评估。对每支团队 \(i\)，用其 70% 数据训练、30% 验证，所有其他团队数据作为测试集。重复 \(n\) 次产生完整的跨团队评估矩阵。
LOTO (Leave-One-Team-Out)：协作多源训练评估。留出一支团队作测试，其余 \(n-1\) 支团队数据合并训练（70% 训练 / 30% 验证），重复 \(n\) 折。

数据处理流水线：

元数据标准化（EXIF 设备信息、64-bit 感知哈希 pHash）
跨团队去重：13,579 条记录涉及 6,370 个重复组，移除 7,209 张重复图像（回收 9.6 GB 存储）
统一 resize 至 336×336（双三次插值 + 中心裁剪）
最终清洗数据集：47,367 张图像，11 支团队，6 个类别

基线架构：采用 DenseNet121（CNN，8M 参数）和 Swin-Tiny（Transformer，28M 参数）双架构，ImageNet-1K 预训练，AdamW 优化器（\(lr=10^{-4}\)，cosine annealing），batch size 32，训练 20 epochs。

评估指标：分类准确率 + 验证-测试差距 VTG（Validation–Test Gap）= \(A_{val} - A_{test}\)。

实验关键数据¶

主实验：TOTO 与 LOTO 对比¶

协议	架构	平均验证准确率	平均测试准确率	平均 VTG	VTG 标准差
TOTO	DenseNet121	97.40%	81.19%	16.20%	6.07%
TOTO	Swin Transformer	98.59%	87.21%	11.37%	5.24%
LOTO	DenseNet121	98.13%	95.31%	2.82%	3.33%
LOTO	Swin Transformer	98.82%	97.04%	1.78%	2.13%

LOTO 相比 TOTO 的提升：

DenseNet121 测试准确率 +14.12 pp，VTG 缩减 82%（16.20% → 2.82%）
Swin Transformer 测试准确率 +9.83 pp，VTG 缩减 84%（11.37% → 1.78%）

分析：各团队泛化表现（LOTO 协议）¶

留出团队	DenseNet121 测试准确率	DenseNet121 VTG	Swin 测试准确率	Swin VTG
CHAJARA	98.94%	−0.68%	99.57%	−0.71%
AiGro	98.73%	−0.73%	99.37%	−0.64%
CACTUS	97.71%	+0.35%	98.58%	+0.18%
The Neural Ninjas	97.69%	+0.47%	98.66%	+0.14%
GreenAI	97.17%	+0.86%	97.86%	+0.91%
RUSTICUS	97.19%	+0.94%	98.23%	+0.52%
SMART AGRICULTURES	94.95%	+3.03%	96.57%	+2.26%
Organization team	93.89%	+4.34%	96.07%	+2.72%
PLT	93.50%	+4.41%	94.78%	+3.83%
AI-4o	92.96%	+5.32%	96.76%	+2.21%
Scorpions	93.35%	+4.77%	95.46%	+3.47%
Condimenteum	87.61%	+10.76%	92.57%	+6.46%

关键发现¶

单源训练泛化鸿沟巨大：TOTO 下模型验证准确率近乎完美（97–99%），但跨团队测试时 DenseNet121 平均仅 81.19%，最差的 Organization team 仅 68.32%，VTG 高达 30.27%。
协作训练戏剧性提升泛化：LOTO 下 Organization team 从 68.32% 跃升至 93.89%（+25.57 pp），说明在孤立场景中表现糟糕的数据集在多源池中可有效贡献。
负 VTG 现象：AiGro 和 CHAJARA 在 LOTO 下呈现负 VTG（测试准确率 > 验证准确率），表明其数据分布与多源训练分布高度一致。
架构选择影响递减：TOTO 下 Swin 比 DenseNet 高 6.02 pp，LOTO 下优势收窄至 1.73 pp，说明数据多样性可部分弥补架构差距。
团队排名跨架构一致：Spearman \(\rho \geq 0.94\)，残差变异主要由数据集特性而非模型驱动。
跨团队准确率矩阵：DenseNet 范围 48.2%–95.3%，Swin 范围 65.2%–98.4%，Pearson \(r=0.95\)，两架构呈高度一致的跨团队转移模式。

亮点与洞察¶

CTV 评估范式新颖且实用：将每支团队视为独立域的做法，比传统随机切分更贴近真实部署场景（不同地区/设备/采集策略），是一个可迁移到其他领域的通用评估框架。
数据集作为竞赛产出：50,673 张图像、40+ 种设备、跨 12 支团队的公开基准，为研究 domain shift 和 data-centric learning 提供了独特资源。
教育功能：竞赛设计让学生体验完整的 ML 管线（采集→标注→预处理→训练→评估），比传统课程只做模型开发更全面。
量化了"数据多样性 > 模型架构"这一论点：协作训练下架构优势从 6 pp 缩窄至 1.7 pp，直接支持 Data-Centric AI 的核心主张。

局限性 / 可改进方向¶

场景单一：仅 6 种树种、单一采集地点（ENSA 植物园）、2 天采集窗口，数值结论可能无法直接推广到其他作物/气候/物候阶段。
植物园背景共享：同一植物园内各类别共享部分背景和光照条件，实际开放农田的 domain shift 可能更大。
仅分类任务：未验证 CTV 在检测、分割等任务上的表现。
无 Domain Adaptation 对比：未测试对抗对齐、风格迁移、元学习等域泛化方法能否进一步缩小 TOTO 下的跨团队差距。
排除季节性特征：为避免时序偏差而排除花果等繁殖器官，但这些是植物学鉴定的关键特征，未来可通过多季节采集引入。
超参数固定：两种架构使用完全相同的超参数，未针对各自特性调优，可能低估架构潜力。

评分¶

维度	分数 (1-5)	说明
新颖性	3.5	CTV 评估范式和竞赛设计有新意，但核心技术（DenseNet/Swin 基线）无创新
实用性	4.0	公开数据集 + 通用 CTV 框架，可直接迁移到其他领域
实验充分度	4.0	双架构 × 双协议 × 12 团队的全面实验，跨团队矩阵分析详尽
写作质量	4.0	结构清晰，可视化丰富，讨论深入
综合推荐	3.5	偏数据集/基准贡献，方法论新颖性有限，但对 Data-Centric AI 社区有价值