AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture¶

日期: 2026-03-20
arXiv: 2511.23253
代码: AgroCoT
领域: 多模态VLM / 农业AI
关键词: agricultural VQA, chain-of-thought, benchmark, reasoning evaluation, precision farming

一句话总结¶

构建首个农业领域多模态 CoT 推理 benchmark（4759 对 VQA + 人工精修推理链），覆盖 5 大维度 15 类任务，系统评估 30 个 VLM（含 5 个闭源），发现 GPT-4.1 整体最强（SS 88.59, CoT Quality 49.78），开源模型推理能力普遍不足，GPT-5 因推理冗长反而低于 GPT-4.1。

研究背景与动机¶

领域现状: VLM 在农业精准种植、病害诊断、害虫管理等场景潜力巨大，已有 AgroBench、AgroMind、CDDM 等 benchmark 评测 VLM。
现有痛点: 现有农业 benchmark 只评估最终答案准确率，不评估推理过程；问题类型单一（多选/判断为主），缺乏长链推理；更关键的是，没有一个包含显式 CoT 标注的农业 benchmark。
核心矛盾: 农业场景需要多步推理（识别病害→分析症状→检索知识→给出诊断建议），仅评最终答案无法暴露 VLM 推理过程中的薄弱环节。
切入角度: 借鉴 ScienceQA、MME-CoT 等通用 CoT benchmark 的思路，为每个 VQA 样本构造人工精修的多步推理链（理解问题→描述图像→检索知识→逻辑推理→最终回答），同时设计面向农业的5大评估维度。
核心 idea: 构建问题驱动的农业 CoT benchmark，联合评估答案正确性和推理质量。

方法详解¶

数据集构建¶

数据来源与筛选:
- 从 CDDM（病害诊断）、AgMMU（物种识别）、AgroMind（多传感器）、AgroBench（管理决策）4 个已有数据集 + 自建数据集整合
- 去重 + 场景过滤，保留复杂推理任务为主、简单知识题为辅
CoT 生成与精修:
- 用 GPT-4o 生成初始 CoT，输入图像+问题+农业场景定义+推理格式模板
- 筛选出错误/不充分的 CoT（答案错误、文本过短、逻辑不连贯、格式不一致）
- 招募 20 名有农业背景的标注员，按标准化操作手册对 CoT 进行人工精修
5大评估维度 × 15类任务:
- 目标检测（OD）：植物管理、生物识别、异常检测
- 定量分析（QA）：生物计数、区域计数、形态统计
- 病害监测（DM）：害虫识别、生物形态鉴定、疾病诊断
- 空间理解（SU）：边界分析、面积评估、空间关系
- 环境管理（EM）：农业工具、农业方法、管理决策

评估指标¶

语义相似度 (SS): 用 all-MiniLM-L6-v2 编码模型输出和参考 CoT，计算余弦相似度
CoT 质量: 关键步骤匹配的 F1 分数，\(\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)
LLM 评分: 用 3 个开源 LLM（Qwen3-8B、DeepSeek-R1-7B、GLM-Z1-9B）从准确性/逻辑连贯性/有效性/清晰性/完整性 5 维度打分
人工评估: 20 名志愿者用相同标准独立评分

实验关键数据¶

主实验¶

模型	SS Overall	CoT Quality
GPT-4.1	88.59	49.78
Claude-Sonnet-4.5	87.81	46.44
Gemini-2.5-Pro	80.30	38.64
GPT-5	75.11	29.78
InternVL3-14B (开源最佳)	82.32	~48
Qwen2.5-VL-72B	~84	~47
DeepSeek-VL2-small	36.26	12.78

关键发现¶

GPT-5 反而不如 GPT-4.1: GPT-5 推理过程过于冗长发散，CoT 质量仅 29.78，远低于 GPT-4.1 的 49.78——过度推理不等于好推理
闭源 vs 开源差距显著: 闭源模型（除 GPT-5）在 SS 上平均 85+，多数开源模型 70-80
环境管理 (EM) 最难: 需要综合工具知识、实践经验和地形环境信息，所有模型在此维度表现最弱
InternVL3-14B 是开源之光: 在 EM 维度的 CoT Quality 达到 59.41，甚至超越部分闭源模型

亮点与洞察¶

推理过程评估是关键创新：不只看最终答案对不对，更看推理链条是否合理——这对农业等需要可解释决策的领域尤为重要
GPT-5 的"过度推理"现象很有启示：更强的模型不等于更好的推理，简洁有效的推理链比冗长发散的更好
多维度评估框架（SS + CoT Quality + LLM Score + Human Eval）提供了较全面的视角

局限性 / 可改进方向¶

4759 样本规模相对有限，各维度分布不均
CoT 初始生成依赖 GPT-4o，可能引入系统偏置
评测的开源模型多为通用 VLM，缺少农业领域微调后的对比
推理步骤固定为 5 步结构，实际农业推理可能需要更灵活的步数

评分¶

新颖性: ⭐⭐⭐⭐ 首个农业 CoT benchmark，但 CoT benchmark 本身非新概念
实验充分度: ⭐⭐⭐⭐⭐ 30 个模型+4种评估维度+人工评估，非常全面
价值: ⭐⭐⭐⭐ 为农业AI提供了急需的推理评测工具，GPT-5过度推理的发现有普适意义