Draft and Refine with Visual Experts¶

会议: CVPR 2026
arXiv: 2511.11005
代码: GitHub
领域: 多模态VLM
关键词: 视觉利用度量化, Agent框架, 幻觉缓解, 视觉专家协同, 免训练

一句话总结¶

提出 DnR（Draft and Refine），一个基于问题条件视觉利用度（Visual Utilization）指标的 Agent 框架，量化 LVLM 对视觉证据的实际依赖程度，并通过外部视觉专家（检测/分割/OCR等）的渲染反馈迭代改善视觉定位，减少幻觉。

研究背景与动机¶

LVLM 的幻觉问题：当前大型视觉语言模型过度依赖语言先验而非视觉证据，产生未定位的幻觉响应。
缺乏视觉利用度的量化手段：现有方法无法度量 LVLM 在推理中实际多大程度依赖了视觉输入。
现有工具调用方式的局限：现有 Agent 系统通过语言驱动的 CoT 或文本置信度决定调用专家，继承了语言模型本身的偏见。
学习型协调框架的高成本：联合优化多个专家需要昂贵且不灵活的联合训练。
并非所有视觉信息等价：不同问题需要关注图像的不同区域，全局性增强视觉依赖反而可能引入噪声。
核心问题：能否让 VLM 基于自身感知需求（而非语言偏见）自主决定何时以及调用哪个视觉专家？

方法详解¶

整体框架¶

DnR 包含四步：(1) LVLM 生成初始 draft 答案；(2) 构建问题条件相关性图 \(r(x|q)\)；(3) 通过相关性 mask 扰动计算视觉利用度 \(U_q(x)\)；(4) 各专家渲染输出到图像上，选择利用度提升最大的专家进行 refine。

关键设计¶

问题条件相关性图（Query-Conditioned Relevance Map）¶

用 LLM 将问题 \(q\) 分解为视觉可寻址的查询集 \(Q = \{q_1, ..., q_m\}\)，再用 CLIP-based 定位模型生成空间相关性图：\(r(x|q) = \frac{1}{m} \sum_{q_i \in Q} R(x|q_i)\)。

问题条件视觉利用度（Question-Conditioned Utilization）¶

基于相关性分布进行 Gumbel-k 采样，生成 Top-k（遮蔽关键区域）和 Bottom-k（遮蔽无关区域）mask。通过语义编码器 \(g(\cdot)\) 测量原始预测与 mask 后预测的语义偏差：

\[U_q(x) = \alpha \cdot \mathbb{E}_{\tau \in \mathcal{M}_q^{\text{top}}}[d_\tau] + (1-\alpha) \cdot \mathbb{E}_{\tau \in \mathcal{M}_q^{\text{bottom}}}[d_\tau]\]

\(\alpha\) 由相关性图的熵和对比度自适应决定。

专家选择与渲染集成¶

各专家（CLIP、SAM、OCR等）的结构化输出渲染到原图（灰化/模糊/高亮等），重新查询 LVLM，选择 \(j^* = \arg\max_j (U_q^{(j)} - U_q^{\text{base}})_+\)。若无专家提升则跳过。可训练轻量级选择器 \(S_\theta\) 替代穷举。

损失函数¶

选择器训练使用交叉熵损失 \(\mathcal{L} = -\mathbb{E}[\log S_\theta(j^*|s)]\)。主框架免训练。

实验关键数据¶

主实验：IDEFICS 在多个 benchmark 上的 Draft vs DnR¶

Benchmark	Draft	DnR	提升
VQAv2	37.8	47.85	+10.05
GQA	24.1	25.5	+1.4
VCR	15.58	21.11	+5.53
VSR	52.76	54.27	+1.51
MME	1392	1432	+40

消融实验¶

分析维度	发现
Revision Rate	不同任务差异大（VQAv2: 29.8%, GQA: 1.5%）
Correction/Degradation	VQAv2: 46.2% 修正 vs 14.3% 退化
Pearson/Spearman 相关性	GQA 0.449/0.364，VCR 0.38/0.421

关键发现¶

视觉利用度与任务准确率存在显著正相关
修正率在需要细粒度视觉理解的任务上最高
渲染策略（灰化/模糊/高亮）效果因专家和任务而异
框架无需重训练即可集成新专家

亮点与洞察¶

首次提出可量化的视觉利用度指标，为 VLM 的视觉定位提供了可度量的评估标准
渲染机制设计巧妙——将专家结构化输出转化为 VLM 可直接处理的视觉线索，无需架构修改
利用度驱动的专家选择比语言驱动的 CoT 更可靠，因为它基于模型的实际感知行为
框架模块化程度高，新专家可即插即用

局限性¶

渲染策略和参数需针对数据集和模型调优
多次 mask + 重新查询 LVLM 的推理开销较大
穷举式专家评估随专家数量线性增长（轻量级选择器可缓解）
视觉利用度指标依赖于相关性图的质量

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐