AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification¶
日期: 2026-03-08
arXiv: 2603.13354
代码: HuggingFace
领域: 多模态/VLM
关键词: crop disease, CNN, contrastive VLM, generative VLM, domain shift
一句话总结¶
系统对比 CNN(ResNet-50)、对比式 VLM(CLIP/SigLIP)和生成式 VLM(Qwen2.5-VL/SmolVLM)在作物病害分类中的架构权衡——构建 AgriPath-LF16 基准(111K 图像/16 种作物/41 种病害,显式区分实验室和田间图像),发现 CNN 域内最强但跨域崩溃(96.8%→4.5%),对比式 VLM 参数高效且跨域竞争力强,生成式 VLM 跨域最鲁棒但存在幻觉和格式失败。
研究背景与动机¶
- 领域现状: 作物病害自动检测对粮食安全至关重要。CNN 长期主导该领域,在 PlantVillage 等实验室数据集上报告 98%+ 准确率。近年 VLM(对比式如 CLIP、生成式如 Qwen2.5-VL)提供了新范式但在农业场景的系统评估缺失。
- 现有痛点: (a) 现有评估聚焦单一架构或实验室数据,缺乏跨范式公平对比;(b) 现有数据集(PlantVillage、PlantDoc)要么全是实验室图像要么规模太小,且不区分采集域,无法评估域迁移性能;(c) Mohanty et al. 已发现 PlantVillage 训练的 CNN 在田间图像上准确率降到 31%,但对 VLM 范式的域迁移行为未知。
- 核心矛盾: 农业实际部署需要模型在多变的田间条件下工作,但高准确率往往来自实验室条件下的过拟合。选哪种架构取决于部署场景,而不是聚合准确率。
- 切入角度: 构建显式区分实验室/田间条件的基准 AgriPath-LF16,在统一协议下对比 CNN、对比式 VLM、生成式 VLM 三种范式在全数据集、仅实验室、仅田间三种训练方式下的表现,用 macro-F1 + Parse Success Rate (PSR) 做全面评估。
方法详解¶
整体框架¶
不是提出新方法,而是系统性的经验对比研究。核心贡献是:(1) AgriPath-LF16 基准数据集;(2) 三范式在三种训练模式下的统一对比;(3) 部署场景导向的分析框架。
关键设计¶
-
AgriPath-LF16 数据集:
- 做什么:111,307 张图像,16 种作物,41 种病害,65 种作物-病害对,显式分为实验室和田间两个采集域
- 均衡子集 AgriPath-LF16-30k:28,482 张,通过类保留降采样构建,80/10/10 划分。优先保证每个类别内实验室/田间均衡
- 设计动机:PlantVillage (54K) 几乎全是实验室图像,PlantDoc (2.9K) 太小,都不支持可控的域迁移评估
-
CNN 基线(ResNet-50):
- ImageNet 预训练,冻结早期层,微调最后残差块组+分类头
- 网格搜索批量大小 {16, 32, 64} × 学习率 {1e-4, 2e-4, 5e-4}
- 三种训练模式:全数据集 / 仅实验室 / 仅田间
-
对比式 VLM(SigLIP ~203M, CLIP ViT-L/14 ~427M):
- 零样本:图像和文本类别描述 embedding 做余弦相似度匹配
- 线性探针:冻结视觉编码器,只训练线性分类头
- 同样三种训练模式
-
生成式 VLM(Qwen2.5-VL 3B/7B, SmolVLM 500M):
- 零样本三种提示策略:简单指令 (Pure)、上下文增强 (Context)、多选题 (MCQ)
- 冻结视觉 (FV):LoRA 只加在语言组件上
- 全 LoRA 微调:Bayesian optimization 调超参(lr, weight_decay, rank r)
- 引入 Parse Success Rate (PSR) 衡量格式可靠性:无法解析为有效标签的输出视为错误
评估指标¶
- Macro-F1(主指标):分别在 Lab、Field、Combined 测试集上评估
- PSR:仅针对生成式 VLM,衡量输出可解析率
实验关键数据¶
主实验(全数据集训练)¶
| 方法 | 参数量 | Combined F1 | Lab F1 | Field F1 | PSR |
|---|---|---|---|---|---|
| ResNet-50 | ~25M | 91.0 | 97.2 | 70.3 | – |
| SigLIP (线性探针) | ~203M | 90.1 | 93.2 | 73.7 | – |
| CLIP/L/14 (线性探针) | ~427M | 91.1 | 95.6 | 75.2 | – |
| Qwen2.5-VL-7B (LoRA) | ~7B | 90.5 | 93.0 | 78.7 | 99.8% |
| SmolVLM-500M (LoRA) | ~500M | 87.8 | 92.8 | 70.6 | 100% |
跨域迁移(极端域迁移)¶
| 模型 | Lab-only训练→Lab F1 | Lab-only训练→Field F1 | 降幅 |
|---|---|---|---|
| ResNet-50 | 96.8 | 4.5 | -95.4% |
| CLIP/L/14 | 95.9 | 10.8 | -88.7% |
| Qwen2.5-VL-7B | 94.1 | 25.2 | -73.2% |
| SmolVLM-500M | 94.4 | 18.3 | -80.6% |
| 模型 | Field-only训练→Field F1 | Field-only训练→Lab F1 |
|---|---|---|
| ResNet-50 | 73.7 | 13.3 |
| CLIP/L/14 | 77.5 | 17.4 |
| Qwen2.5-VL-7B | 75.1 | 20.3 |
零样本表现¶
| 方法 | F1 | PSR |
|---|---|---|
| CLIP/L/14 零样本 | 14.3 | – |
| SigLIP 零样本 | 0.16 | – |
| Qwen2.5-VL-7B 零样本 MCQ | 65.9 | 94.8% |
| Qwen2.5-VL-3B 零样本 MCQ | 23.7 | 21.2% |
关键发现¶
- CNN 域内最强但跨域最脆弱:ResNet-50 实验室内达 97.2% 但 Lab→Field 直接崩溃到 4.5%(降幅 95.4%)。CNN 学到了高度域特异的表示,依赖纹理/形状等低层特征
- 对比式 VLM 零样本在细粒度农业任务上几乎无效:CLIP 零样本仅 14.3%,SigLIP 仅 0.16%,说明 web-scale 对比训练没有编码足够的细粒度病害区分能力。但线性探针后竞争力很强(91.1%),说明预训练特征中确实包含病害相关信息
- 生成式 VLM 跨域最鲁棒:全数据集训练下 Qwen-7B 的 Lab→Field 降幅仅 ~19%(vs CNN 的 ~28%);Lab-only 训练下降幅 ~74%(vs CNN 的 ~95%),说明 web-scale 预训练提供了对视觉复杂场景的鲁棒性先验
- 域迁移不对称:Lab→Field 降幅远大于 Field→Lab,因为实验室图像分布窄(干净背景、均匀光照),田间训练的模型特征更泛化
- 生成式 VLM 的独有风险——幻觉和格式失败:431 个输出解析失败,39.7% 为空生成,12.69% 为幻觉(如虚构的"icelandic raspberry")。这在高风险农业场景是不可接受的
- 提示格式对生成式零样本影响巨大:MCQ 格式显著提升表现(Qwen-7B 从 ~4% 到 65.9%),说明模型有病害视觉知识但需要结构化提示才能有效提取
- 模型规模影响鲁棒性:更大的生成式 VLM 在冻结视觉条件下保持更好的性能,说明模型容量影响预训练特征的利用效率
亮点与洞察¶
- 域迁移是农业 AI 最核心的挑战:CNN 95% 的跨域崩溃令人警醒。这不是某个模型的问题,而是 CNN 范式在受控 vs 非受控条件下的根本限制。对农业部署的实际意义是:如果训练数据只有实验室图像,CNN 几乎不可用
- "没有银弹"的结论有实践指导意义:实验室管线用 CNN → 固定作物集且有中等域迁移用对比式 VLM → 需要灵活性和扩展能力用生成式 VLM。这比"VLM 最好"更有价值
- PSR 指标的引入:把生成式模型的格式可靠性纳入评估体系,这在其他生成式分类应用中也可借鉴
局限性 / 可改进方向¶
- 田间图像仍不足:某些作物-病害对的田间图像极少,限制了跨域评估的可靠性
- 缺乏时序和上下文元数据:病害是动态发展的,单帧图像无法捕捉进展阶段;缺少地区、气候、土壤等元数据
- 计算约束限制了更大模型的探索:未测试 Qwen2.5-VL-72B 等更大规模的生成式 VLM
- 失败模式分析可以更深入:幻觉分类做了但样本量较小(431 个),系统性的幻觉缓解策略(如结构化输出约束、检索增强)未探索
相关工作与启发¶
- vs PlantVillage 评估:PlantVillage 只有实验室图像,之前的高准确率报告(98%+)可能掩盖了域迁移问题。AgriPath-LF16 的显式域分离让这个问题浮出水面
- vs AgroGPT: AgroGPT 聚焦会话和专家推理能力,但前提假设模型有可靠的视觉理解。本文发现这个前提在细粒度分类中并不总成立
- 启发:这种"统一协议下三范式对比"的方法论可以迁移到其他垂直领域的 AI 评估(如医学影像、工业检测)
评分¶
- 新颖性: ⭐⭐⭐ 系统性经验对比而非方法创新,但数据集构建和评估框架设计有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 三范式 × 三训练模式 × 三测试域 × 零样本/微调 × 多模型规模,实验矩阵非常完整
- 写作质量: ⭐⭐⭐⭐ 对比设计合理,失败模式分析(含具体案例图)很有说服力
- 价值: ⭐⭐⭐⭐ 对农业 AI 系统的架构选型有直接参考价值,PSR 指标的引入对生成式分类评估有通用意义