AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification¶

日期: 2026-03-08
arXiv: 2603.13354
代码: HuggingFace
领域: 多模态/VLM
关键词: crop disease, CNN, contrastive VLM, generative VLM, domain shift

一句话总结¶

系统对比 CNN（ResNet-50）、对比式 VLM（CLIP/SigLIP）和生成式 VLM（Qwen2.5-VL/SmolVLM）在作物病害分类中的架构权衡——构建 AgriPath-LF16 基准（111K 图像/16 种作物/41 种病害，显式区分实验室和田间图像），发现 CNN 域内最强但跨域崩溃（96.8%→4.5%），对比式 VLM 参数高效且跨域竞争力强，生成式 VLM 跨域最鲁棒但存在幻觉和格式失败。

研究背景与动机¶

领域现状: 作物病害自动检测对粮食安全至关重要。CNN 长期主导该领域，在 PlantVillage 等实验室数据集上报告 98%+ 准确率。近年 VLM（对比式如 CLIP、生成式如 Qwen2.5-VL）提供了新范式但在农业场景的系统评估缺失。
现有痛点: (a) 现有评估聚焦单一架构或实验室数据，缺乏跨范式公平对比；(b) 现有数据集（PlantVillage、PlantDoc）要么全是实验室图像要么规模太小，且不区分采集域，无法评估域迁移性能；(c) Mohanty et al. 已发现 PlantVillage 训练的 CNN 在田间图像上准确率降到 31%，但对 VLM 范式的域迁移行为未知。
核心矛盾: 农业实际部署需要模型在多变的田间条件下工作，但高准确率往往来自实验室条件下的过拟合。选哪种架构取决于部署场景，而不是聚合准确率。
切入角度: 构建显式区分实验室/田间条件的基准 AgriPath-LF16，在统一协议下对比 CNN、对比式 VLM、生成式 VLM 三种范式在全数据集、仅实验室、仅田间三种训练方式下的表现，用 macro-F1 + Parse Success Rate (PSR) 做全面评估。

方法详解¶

整体框架¶

不是提出新方法，而是系统性的经验对比研究。核心贡献是：(1) AgriPath-LF16 基准数据集；(2) 三范式在三种训练模式下的统一对比；(3) 部署场景导向的分析框架。

关键设计¶

AgriPath-LF16 数据集:
- 做什么：111,307 张图像，16 种作物，41 种病害，65 种作物-病害对，显式分为实验室和田间两个采集域
- 均衡子集 AgriPath-LF16-30k：28,482 张，通过类保留降采样构建，80/10/10 划分。优先保证每个类别内实验室/田间均衡
- 设计动机：PlantVillage (54K) 几乎全是实验室图像，PlantDoc (2.9K) 太小，都不支持可控的域迁移评估
CNN 基线（ResNet-50）:
- ImageNet 预训练，冻结早期层，微调最后残差块组+分类头
- 网格搜索批量大小 {16, 32, 64} × 学习率 {1e-4, 2e-4, 5e-4}
- 三种训练模式：全数据集 / 仅实验室 / 仅田间
对比式 VLM（SigLIP ~203M, CLIP ViT-L/14 ~427M）:
- 零样本：图像和文本类别描述 embedding 做余弦相似度匹配
- 线性探针：冻结视觉编码器，只训练线性分类头
- 同样三种训练模式
生成式 VLM（Qwen2.5-VL 3B/7B, SmolVLM 500M）:
- 零样本三种提示策略：简单指令 (Pure)、上下文增强 (Context)、多选题 (MCQ)
- 冻结视觉 (FV)：LoRA 只加在语言组件上
- 全 LoRA 微调：Bayesian optimization 调超参（lr, weight_decay, rank r）
- 引入 Parse Success Rate (PSR) 衡量格式可靠性：无法解析为有效标签的输出视为错误

评估指标¶

Macro-F1（主指标）：分别在 Lab、Field、Combined 测试集上评估
PSR：仅针对生成式 VLM，衡量输出可解析率

实验关键数据¶

主实验（全数据集训练）¶

方法	参数量	Combined F1	Lab F1	Field F1	PSR
ResNet-50	~25M	91.0	97.2	70.3	–
SigLIP (线性探针)	~203M	90.1	93.2	73.7	–
CLIP/L/14 (线性探针)	~427M	91.1	95.6	75.2	–
Qwen2.5-VL-7B (LoRA)	~7B	90.5	93.0	78.7	99.8%
SmolVLM-500M (LoRA)	~500M	87.8	92.8	70.6	100%

跨域迁移（极端域迁移）¶

模型	Lab-only训练→Lab F1	Lab-only训练→Field F1	降幅
ResNet-50	96.8	4.5	-95.4%
CLIP/L/14	95.9	10.8	-88.7%
Qwen2.5-VL-7B	94.1	25.2	-73.2%
SmolVLM-500M	94.4	18.3	-80.6%

模型	Field-only训练→Field F1	Field-only训练→Lab F1
ResNet-50	73.7	13.3
CLIP/L/14	77.5	17.4
Qwen2.5-VL-7B	75.1	20.3

零样本表现¶

方法	F1	PSR
CLIP/L/14 零样本	14.3	–
SigLIP 零样本	0.16	–
Qwen2.5-VL-7B 零样本 MCQ	65.9	94.8%
Qwen2.5-VL-3B 零样本 MCQ	23.7	21.2%

关键发现¶

CNN 域内最强但跨域最脆弱：ResNet-50 实验室内达 97.2% 但 Lab→Field 直接崩溃到 4.5%（降幅 95.4%）。CNN 学到了高度域特异的表示，依赖纹理/形状等低层特征
对比式 VLM 零样本在细粒度农业任务上几乎无效：CLIP 零样本仅 14.3%，SigLIP 仅 0.16%，说明 web-scale 对比训练没有编码足够的细粒度病害区分能力。但线性探针后竞争力很强（91.1%），说明预训练特征中确实包含病害相关信息
生成式 VLM 跨域最鲁棒：全数据集训练下 Qwen-7B 的 Lab→Field 降幅仅 ~19%（vs CNN 的 ~28%）；Lab-only 训练下降幅 ~74%（vs CNN 的 ~95%），说明 web-scale 预训练提供了对视觉复杂场景的鲁棒性先验
域迁移不对称：Lab→Field 降幅远大于 Field→Lab，因为实验室图像分布窄（干净背景、均匀光照），田间训练的模型特征更泛化
生成式 VLM 的独有风险——幻觉和格式失败：431 个输出解析失败，39.7% 为空生成，12.69% 为幻觉（如虚构的"icelandic raspberry"）。这在高风险农业场景是不可接受的
提示格式对生成式零样本影响巨大：MCQ 格式显著提升表现（Qwen-7B 从 ~4% 到 65.9%），说明模型有病害视觉知识但需要结构化提示才能有效提取
模型规模影响鲁棒性：更大的生成式 VLM 在冻结视觉条件下保持更好的性能，说明模型容量影响预训练特征的利用效率

亮点与洞察¶

域迁移是农业 AI 最核心的挑战：CNN 95% 的跨域崩溃令人警醒。这不是某个模型的问题，而是 CNN 范式在受控 vs 非受控条件下的根本限制。对农业部署的实际意义是：如果训练数据只有实验室图像，CNN 几乎不可用
"没有银弹"的结论有实践指导意义：实验室管线用 CNN → 固定作物集且有中等域迁移用对比式 VLM → 需要灵活性和扩展能力用生成式 VLM。这比"VLM 最好"更有价值
PSR 指标的引入：把生成式模型的格式可靠性纳入评估体系，这在其他生成式分类应用中也可借鉴

局限性 / 可改进方向¶

田间图像仍不足：某些作物-病害对的田间图像极少，限制了跨域评估的可靠性
缺乏时序和上下文元数据：病害是动态发展的，单帧图像无法捕捉进展阶段；缺少地区、气候、土壤等元数据
计算约束限制了更大模型的探索：未测试 Qwen2.5-VL-72B 等更大规模的生成式 VLM
失败模式分析可以更深入：幻觉分类做了但样本量较小（431 个），系统性的幻觉缓解策略（如结构化输出约束、检索增强）未探索

评分¶

新颖性: ⭐⭐⭐ 系统性经验对比而非方法创新，但数据集构建和评估框架设计有价值
实验充分度: ⭐⭐⭐⭐⭐ 三范式 × 三训练模式 × 三测试域 × 零样本/微调 × 多模型规模，实验矩阵非常完整
写作质量: ⭐⭐⭐⭐ 对比设计合理，失败模式分析（含具体案例图）很有说服力
价值: ⭐⭐⭐⭐ 对农业 AI 系统的架构选型有直接参考价值，PSR 指标的引入对生成式分类评估有通用意义