跳转至

Draft and Refine with Visual Experts

会议: CVPR 2026
arXiv: 2511.11005
代码: GitHub
领域: 多模态VLM
关键词: 视觉利用度量化, Agent框架, 幻觉缓解, 视觉专家协同, 免训练

一句话总结

提出 DnR(Draft and Refine),一个基于问题条件视觉利用度(Visual Utilization)指标的 Agent 框架,量化 LVLM 对视觉证据的实际依赖程度,并通过外部视觉专家(检测/分割/OCR等)的渲染反馈迭代改善视觉定位,减少幻觉。

研究背景与动机

  1. LVLM 的幻觉问题:当前大型视觉语言模型过度依赖语言先验而非视觉证据,产生未定位的幻觉响应。
  2. 缺乏视觉利用度的量化手段:现有方法无法度量 LVLM 在推理中实际多大程度依赖了视觉输入。
  3. 现有工具调用方式的局限:现有 Agent 系统通过语言驱动的 CoT 或文本置信度决定调用专家,继承了语言模型本身的偏见。
  4. 学习型协调框架的高成本:联合优化多个专家需要昂贵且不灵活的联合训练。
  5. 并非所有视觉信息等价:不同问题需要关注图像的不同区域,全局性增强视觉依赖反而可能引入噪声。
  6. 核心问题:能否让 VLM 基于自身感知需求(而非语言偏见)自主决定何时以及调用哪个视觉专家?

方法详解

整体框架

DnR 包含四步:(1) LVLM 生成初始 draft 答案;(2) 构建问题条件相关性图 \(r(x|q)\);(3) 通过相关性 mask 扰动计算视觉利用度 \(U_q(x)\);(4) 各专家渲染输出到图像上,选择利用度提升最大的专家进行 refine。

关键设计

问题条件相关性图(Query-Conditioned Relevance Map)

用 LLM 将问题 \(q\) 分解为视觉可寻址的查询集 \(Q = \{q_1, ..., q_m\}\),再用 CLIP-based 定位模型生成空间相关性图:\(r(x|q) = \frac{1}{m} \sum_{q_i \in Q} R(x|q_i)\)

问题条件视觉利用度(Question-Conditioned Utilization)

基于相关性分布进行 Gumbel-k 采样,生成 Top-k(遮蔽关键区域)和 Bottom-k(遮蔽无关区域)mask。通过语义编码器 \(g(\cdot)\) 测量原始预测与 mask 后预测的语义偏差:

\[U_q(x) = \alpha \cdot \mathbb{E}_{\tau \in \mathcal{M}_q^{\text{top}}}[d_\tau] + (1-\alpha) \cdot \mathbb{E}_{\tau \in \mathcal{M}_q^{\text{bottom}}}[d_\tau]\]

\(\alpha\) 由相关性图的熵和对比度自适应决定。

专家选择与渲染集成

各专家(CLIP、SAM、OCR等)的结构化输出渲染到原图(灰化/模糊/高亮等),重新查询 LVLM,选择 \(j^* = \arg\max_j (U_q^{(j)} - U_q^{\text{base}})_+\)。若无专家提升则跳过。可训练轻量级选择器 \(S_\theta\) 替代穷举。

损失函数

选择器训练使用交叉熵损失 \(\mathcal{L} = -\mathbb{E}[\log S_\theta(j^*|s)]\)。主框架免训练。

实验关键数据

主实验:IDEFICS 在多个 benchmark 上的 Draft vs DnR

Benchmark Draft DnR 提升
VQAv2 37.8 47.85 +10.05
GQA 24.1 25.5 +1.4
VCR 15.58 21.11 +5.53
VSR 52.76 54.27 +1.51
MME 1392 1432 +40

消融实验

分析维度 发现
Revision Rate 不同任务差异大(VQAv2: 29.8%, GQA: 1.5%)
Correction/Degradation VQAv2: 46.2% 修正 vs 14.3% 退化
Pearson/Spearman 相关性 GQA 0.449/0.364,VCR 0.38/0.421

关键发现

  • 视觉利用度与任务准确率存在显著正相关
  • 修正率在需要细粒度视觉理解的任务上最高
  • 渲染策略(灰化/模糊/高亮)效果因专家和任务而异
  • 框架无需重训练即可集成新专家

亮点与洞察

  • 首次提出可量化的视觉利用度指标,为 VLM 的视觉定位提供了可度量的评估标准
  • 渲染机制设计巧妙——将专家结构化输出转化为 VLM 可直接处理的视觉线索,无需架构修改
  • 利用度驱动的专家选择比语言驱动的 CoT 更可靠,因为它基于模型的实际感知行为
  • 框架模块化程度高,新专家可即插即用

局限性

  • 渲染策略和参数需针对数据集和模型调优
  • 多次 mask + 重新查询 LVLM 的推理开销较大
  • 穷举式专家评估随专家数量线性增长(轻量级选择器可缓解)
  • 视觉利用度指标依赖于相关性图的质量

相关工作与启发

  • 与 VisProg 等程序化推理 Agent 相比,DnR 不需要代码执行
  • 与幻觉缓解方法(如 VCD、OPERA)相比,DnR 从"视觉利用"角度切入,更加原理化
  • 渲染集成思路可启发其他领域的工具调用范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐