Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry¶

会议: ACL 2026
arXiv: 2604.20983
代码: github.com/syed-nazmus-sakib/PlantInquiryVQA
领域: 医学图像 / 植物病理诊断
关键词: 植物病理VQA、Chain-of-Inquiry、多步视觉推理、诊断推理、多模态评估

一句话总结¶

本文提出PlantInquiryVQA基准和Chain-of-Inquiry（CoI）框架，包含24,950张植物图像和138,068个问答对，模拟植物学家的适应性诊断提问策略，评估18个MLLM在植物病理诊断中的多步视觉推理能力，发现结构化提问显著提升诊断准确性并减少幻觉，但即使最强模型的临床实用性得分仅0.188。

研究背景与动机¶

领域现状：VQA数据集是评估多模态推理的核心范式，已扩展到医学影像、科学图像分析等领域。先进的VQA基准现在关注多面板、多选择和视觉-语言接地的问答对。农业视觉领域的数据集（如PlantVillage、PlantDoc）主要针对分类和分割任务，不支持交互式问答推理。

现有痛点：当前VQA基准从根本上是"以问题为中心"的——将每张图像视为独立查询的输入，而非目标导向的适应性探询的起点。然而在植物病理学等专业领域，有效的视觉推理不是回答孤立问题，而是从一系列相互依赖的探询中涌现——每个问题都基于先前观察，遵循序列化的叙事轨迹。专家植物学家通过从物种识别→疾病诊断→预后预测的分层、证据驱动提问策略进行整体评估。

核心矛盾：LLM在实现Chain-of-Thought推理方面取得了显著进展，但类似的多步探索在VQA数据集设计中尚未被充分探索。CoT通常被视为提示策略或模型架构的隐含能力，而非数据集本身的显式结构需求。

本文目标：构建一个数据集级别的Chain-of-Inquiry框架，使问题序列本身反映领域专家的适应性、决策驱动的工作流。

切入角度：植物病理学中，每个样本根据其视觉外观获得独特的诊断考虑。症状模糊时，专家优先进行鉴别诊断和比较视觉分析；症状严重时，专家转向疾病管理和预防策略。提问的序列和意图与答案本身同样重要。

核心 idea：形式化Chain-of-Inquiry框架，将诊断轨迹建模为条件于视觉线索和认知意图的有序问答序列，根据疾病严重度自动调整提问策略从诊断→预后→管理。

方法详解¶

整体框架¶

PlantInquiryVQA的构建分三个阶段：(1) 使用VLM按专家设计的schema从植物图像中提取细粒度视觉线索；(2) 构建植物学知识结构，将疾病严重度映射到诊断意图；(3) 动态LLM生成管线，根据诊断意图和视觉证据注入特定推理模块来生成对话轨迹。数据集覆盖34种作物物种，设计了7类问题类别和12种独特的CoI轨迹。

关键设计¶

Chain-of-Inquiry形式化:
- 功能：将诊断推理建模为视觉-语义轨迹，条件于诊断意图。
- 核心思路：对给定图像 \(x\) 和视觉线索 \(v_x\)，CoI定义为有序的T轮对话 \(C(x, v_x) = \langle (q_1, a_1), \ldots, (q_T, a_T) \rangle\)，每个问题 \(q_t\) 条件于视觉证据 \(v_x\)、先前上下文 \(H_{t-1}\) 和潜在诊断意图 \(k \in \mathcal{K}\)。意图空间分为三个层次：诊断（\(k_D\)，识别健康状态和鉴别诊断）、预后（\(k_P\)，预测疾病轨迹和因果病因）、管理（\(k_M\)，处方策略和反事实预防推理）。轻度症状→诊断意图，中度→预后意图，重度→管理意图。
- 设计动机：不同严重度的样本需要不同的提问策略——轻度症状需要鉴别诊断来区分相似病理，重度损害需要聚焦即时补救和反事实分析。将意图显式编码使数据集能够测试模型是否能适应性地调整推理链路。
视觉线索提取与CoI分类:
- 功能：从植物图像中提取结构化的诊断特征，分类12种CoI轨迹。
- 核心思路：招募6名植物学家（2名博士级+4名研究生级）定义"视觉解析Schema"，涵盖症状学、分布模式和疾病严重度量化三个诊断维度。用Qwen3-VL-4B自动提取视觉线索（准确率73.6%），GPT-4V交叉验证，专家对标记实例和5000随机样本进行临床事实性检查（事实性得分93.8%）。专家将标准诊断询问分为7类：视觉感知与接地、诊断推理、因果推理、风险评估、预后预测、处方推理、反事实推理。12种CoI轨迹覆盖4种健康状态×3种严重度×2种实例多样性×3种认知意图。
- 设计动机：古典植物病理学文献描述了诊断的生物学阶段，但没有标准的视觉对话询问分类法。通过让专家对600个随机样本进行临床评估并记录提问策略，弥合了这一空白。
结构化生成管线:
- 功能：动态组装针对每个植物样本的对话轨迹。
- 核心思路：管线由配置元组 \(T = (c, s, k_s, V_{cues})\)（生物条件、严重度、意图、视觉线索）驱动。认知目标\(k\)根据严重度\(s\)调节信息密度。使用Qwen2.5-7B-Instruct从问题模板动态组装对话轨迹，并注入特定推理模块（如temporal_evolution、remediation_strategy等）以增强复杂度。
- 设计动机：解耦配置元组允许即使对同一图像也能生成多样化的推理链（如对轻度vs重度情况提出管理建议），确保覆盖从常规识别到复杂多步临床推理的完整诊断难度谱。

损失函数 / 训练策略¶

PlantInquiryVQA是评估基准。评估使用标准词汇指标（F1、BLEU-4、ROUGE-L）和七个领域特定得分：疾病识别（\(S_{dis}\)）、安全性（\(S_{safe}\)）、临床实用性（\(S_{clin}\)）、视觉接地（\(S_{vg}\)）、视觉特征提取效率（E）、流行度偏差（B）和跨类公平性（F）。

实验关键数据¶

主实验（18个MLLM表现，关键指标）¶

模型	F1	疾病识别	临床实用性	安全性	视觉接地
Gemini-3-Flash	0.255	0.444	0.188	0.147	0.259
Seed-1.6-Flash	0.226	0.344	0.120	0.075	0.394
Grok-4.1-Fast	0.203	0.224	0.067	0.009	0.498
Ministral-3B	0.166	0.189	0.059	0.020	0.372

消融实验（结构化提问对诊断效率的影响，Guided vs Scaffolded）¶

模型	Scaffolded效率	Guided效率	效率提升
Gemini-2.5-Flash	2.60	3.67	+41.15%
Qwen2.5-VL-32B	1.60	2.94	+83.75%
Gemma-3-27B	1.88	2.38	+26.60%

关键发现¶

显著的领域差距：即使最强模型Gemini-3-Flash，临床实用性仅0.188、安全性仅0.147，远不能满足自主部署要求
"看到"不等于"诊断"：Grok-4.1-Fast的视觉接地最高（0.498）但疾病识别最低（0.224），说明准确描述视觉症状不等于能做出正确诊断
结构化提问减少幻觉：问题引导的诊断比直接诊断在所有严重度下都显著更准确，具体问题迫使模型关注细粒度特征（如病变边缘、光晕存在），约束搜索空间
CoI结构是主要驱动因素：Cascading模式（用模型自身先前回答）保留了Guided模式96.3%的效率和81.7%的诊断准确度，说明结构化提问本身（而非完美记忆）驱动了改善

亮点与洞察¶

Chain-of-Inquiry作为数据集级别的结构性约束：将CoT从提示策略提升为数据集的显式结构需求，这个思路可以推广到任何需要多步推理评估的领域（如医学影像诊断、工程故障排查）。
意图驱动的适应性提问：根据疾病严重度自动调整提问策略（诊断→预后→管理），这种意图-视觉耦合的设计理念可以启发Agent系统的对话策略设计。
视觉接地-诊断推理的解耦发现：揭示了"描述症状"和"做出诊断"是两种可分离的能力，为模型改进指出了具体方向。

局限与展望¶

植物病理学通常需要触觉、环境等多感官信息，单帧图像不足以完全复现专家诊断流程
即使顶级模型仍会出现"虚假安全"错误（将患病样本误判为健康），目前只能作为决策支持工具而非替代
基准仅为英文，限制了对非英语地区小农户的可及性
视觉线索提取主要依赖Qwen3-VL-4B自动化完成，部分线索可能不够精确

评分¶

新颖性: ⭐⭐⭐⭐ CoI框架从提示策略到数据集结构的范式提升是新颖贡献
实验充分度: ⭐⭐⭐⭐ 18个模型、完整消融、多种评估指标，但数据集构建部分自动化
写作质量: ⭐⭐⭐⭐ 框架设计清晰，实验分析深入，部分表格过多
价值: ⭐⭐⭐⭐ 为农业AI诊断推理提供了重要基准，CoI思路有跨领域迁移价值
综合: ⭐⭐⭐⭐ 切入角度新颖且实际，揭示了MLLM在专业诊断推理中的真实差距