Multi-label Instance-level Generalised Visual Grounding in Agriculture¶

日期: 2026-03-05
arXiv: 2603.06699
代码: 无（暂未公开）
领域: 多模态/VLM
关键词: precision agriculture, visual grounding, crop-weed detection, multi-label, hierarchical relevance

一句话总结¶

构建 gRef-CW 农业视觉定位数据集（8034 图/82K 标注）和 Weed-VG 框架，通过层级相关性评分（全局存在性检测 + 实例级相关性排序）和 IoU 驱动插值回归，实现 Top-1 精度 62.42%，远超 GroundingDINO（20.38%）。

研究背景与动机¶

领域现状：精准农业需要从田间图像中检测和区分作物/杂草实例，现有方法多采用检测框架但缺乏自然语言理解能力。
现有痛点：(1) 缺乏农业场景的视觉定位数据集；(2) 通用视觉定位模型对密集小目标和领域术语表现差，GroundingDINO 的负例准确率仅 7.52%；(3) 农业场景目标尺度极端变化（占图像面积 0.01%-0.97%），通用模型无法处理。
核心矛盾：需要多标签实例级精细定位（区分不同植物种类+判断是否存在），同时处理高密度场景（>30 实例/图）和极端尺度差异。
切入角度：构建专门的 gRef-CW 数据集 + Weed-VG 框架，用层级化评分分解"是否存在"和"哪个实例"两个子问题。

方法详解¶

整体框架¶

Weed-VG 基于 GroundingDINO 扩展，分为三阶段：(1) 提案生成——Swin Transformer + BERT 生成候选区域；(2) 层级相关性评分——L0 判断目标是否存在 + L1 对实例做相关性排序；(3) IoU 驱动插值回归——解决极端尺度变化下的定位精度。

关键设计¶

层级相关性评分（HRS）：
- L0 全局存在性检测：先判断查询描述的目标是否在图像中存在。池化所有提案分数 \(s_{\text{pool}}(k) = \max_j s(v_j, t_k)\)，softmax 归一化后做二分类
- L1 实例相关性排序：结合句子级和词级相似度做对比评分 \(S_{\text{ref}} = w_s \cdot S_{\text{sent}} + (1-w_s) \cdot \text{MaxPool}(S_{\text{word}})\)
- 层级约束：\(L_{\text{lvl1}}^{\text{constrained}} = \max(L_{\text{lvl1}}, L_{\text{lvl0}})\)
- 设计动机：通用模型对不相关查询几乎不拒绝（Neg-Acc 7.52%），两级分解让模型先学会"说不"
IoU 驱动插值回归（InterpIoU）：
- 构建插值框 \(B_{\text{int}} = (1-\alpha)B_{\text{pred}} + \alpha B_{\text{gt}}\)，\(\alpha=0.99\)
- 联合损失 \(L_{\text{InterpIoU}} = L_{\text{IoU}}(B_{\text{pred}}, B_{\text{gt}}) + L_{\text{IoU}}(B_{\text{int}}, B_{\text{gt}})\)
- 对微小目标，标准 IoU 损失梯度极小难以优化；插值框提供了更陡峭的梯度信号
距离和尺度感知匹配：
- 匹配代价 \(C_{ij} = (1-\text{IoU}) + \lambda_\text{centre}\|\mathbf{c}(P)-\mathbf{c}(G)\|^2 + \lambda_\text{size}(\frac{|w_P-w_G|}{w_G}+\frac{|h_P-h_G|}{h_G})\)

损失函数 / 训练策略¶

两阶段训练：Stage 1（100 epoch）微调最后解码层+框回归头用 InterpIoU；Stage 2（60 epoch）训练投影/注意力层和 HRS。AdamW + cosine annealing，lr=2e-4，batch=4。A100 GPU。

实验关键数据¶

主实验（gRef-CW 测试集）¶

方法	Top-1↑	R@0.5↑	mIoU↑	Neg-Acc↑
MDETR	10.16	7.78	54.19	3.32
GroundingDINO-L	20.38	28.73	23.68	7.52
SAM3	34.88	46.65	32.76	25.53
Weed-VG	62.42	55.44	57.25	78.35

消融实验¶

配置	Top-1	mIoU	Neg-Acc
Full Weed-VG	62.42	57.25	78.35
w/o 查询投影	33.20	—	—
w/o InterpIoU	49.15	47.72	—
仅句子级	49.29	49.35	—
w/o 层级约束	59.87	—	41.60

关键发现¶

Weed-VG 比 GroundingDINO 高 3 倍精度（62.42% vs 20.38%），Neg-Acc 差 10 倍
尺度鲁棒性：tiny→large 差距仅 17 点（SAM3 为 58 点）
查询投影去除后 Top-1 暴跌 29 点，是最关键组件
层级约束对 Neg-Acc 贡献最大（去除后 -36.75 点）

亮点与洞察¶

层级分解的负例拒绝：两级评分使 Neg-Acc 从 7.52% 跃升到 78.35%——"学会说不"比"学会说是"更难更重要
InterpIoU 回归：用插值框为微小目标提供有效梯度，可迁移到其他小目标检测任务

局限性 / 可改进方向¶

gRef-CW 数据集地理和气候多样性有限
实时性评估缺失（田间部署需要低延迟）
仅覆盖特定作物类型

评分¶

新颖性: ⭐⭐⭐⭐ 层级评分和 InterpIoU 设计有创新
实验充分度: ⭐⭐⭐⭐⭐ 多尺度、密度分析、详尽消融
写作质量: ⭐⭐⭐⭐ 结构清晰
价值: ⭐⭐⭐⭐ 对精准农业有直接应用价值