跳转至

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

会议: CVPR 2026
arXiv: 2603.00207
代码: 无
领域: LLM推理
关键词: 视觉重聚焦, 测试时缩放, 多模态推理, 行列式点过程, 无训练

一句话总结

提出 VisRef,一个无需训练的视觉重聚焦框架,在多模态推理每一步通过 DPP 选择与当前推理状态相关且多样的视觉token子集重新注入,配合基于熵的自适应停止准则,在三个视觉推理基准上比文本自反思方法提升最高6.4%。

研究背景与动机

  1. 领域现状:多模态大推理模型(MLRMs)如 InternVL-3.5、Qwen3-VL 等通过生成显式思维链(thinking traces)在视觉推理任务上取得强劲表现。测试时缩放(test-time scaling)通过分配更多推理计算来提升性能。
  2. 现有痛点:随着推理链变长,视觉token在不断扩展的上下文窗口中被稀释,模型逐渐依赖文本先验而非视觉信息。现有测试时缩放方法(如自反思、budget forcing)本质上是纯文本的,只延长文本推理而不维护视觉接地性。
  3. 核心矛盾:RL微调方法(如 Look-Back)可以教模型"回看"视觉信息,但计算成本高(60 GPU小时A6000)且需要大规模数据。纯文本的测试时缩放不仅无效,有时甚至有害(视觉注意力持续衰减)。
  4. 本文要解决什么? 能否在完全不微调的情况下,在测试时恢复和维持视觉接地性?
  5. 切入角度:模仿人类解题时"看图→思考→回看图→继续思考"的交替过程,在每个推理步骤自适应地选择并重新注入一部分视觉token。用DPP平衡相关性和多样性,用熵停止准则防止过度思考。
  6. 核心idea一句话:在推理每步用DPP选择与当前推理上下文相关且多样化的视觉token coreset重新注入,无训练地保持视觉接地性。

方法详解

整体框架

输入:图像\(I\)+文本提示\(T\)。输出:最终答案\(y\)。方法循环执行:(1) 生成一步推理\(z_k\);(2) 用DPP从所有视觉token中选出子集\(V_k\);(3) 将\(V_k\)注入上下文作为视觉重聚焦;(4) 检查熵是否低于阈值。终止后生成最终答案。

关键设计

  1. DPP-based 视觉token选择:
  2. 做什么:在每个推理步骤选择既与当前推理相关又彼此多样的视觉token子集
  3. 核心思路:给定推理步骤\(z_k\)的文本token嵌入,构建文本子空间矩阵\(M_k = \sum_{j=1}^{T_k} z_k^{(j)} (z_k^{(j)})^\top\)。将visual token投影到该子空间:\(\phi_k(v) = M_k^{1/2} v\)。构造DPP核矩阵\(L_k(v_i, v_j) = \phi_k(v_i)^\top \phi_k(v_j)\)。目标:\(\tilde{V}_k = \arg\max_{V_k \subseteq \mathcal{V}} \det(L_k^{V_k})\)。行列式目标自然分解为相关性项(token与文本子空间的对齐度 \(\sum \log r_i^2\))和多样性项(\(\log\det(\bar{L}_k^{V_k})\)
  4. 设计动机:朴素方法——注入所有视觉token计算量太大(上下文长度膨胀2.3倍),而随机选择无法保证相关性。DPP天然平衡相关性和多样性,且贪心近似有理论保证

  5. 基于熵的自适应停止准则:

  6. 做什么:自动决定何时停止推理并输出答案
  7. 核心思路:每步计算模型回答分布的熵 \(H_k = -\mathbb{E}_{y \sim \pi_\theta}[\log \pi_\theta(y | x_{\text{input}}, \tau_{1:k})]\)。当\(H_k < \delta_{\text{entropy}}\)(默认0.25)或达到最大步数\(K_{\max}=10\)时停止
  8. 设计动机:简单问题应早停(节省计算),困难问题需要更多推理步骤。基于熵可自适应调配每题的计算量,防止过度思考(overthinking)导致性能退化

  9. 贪心近似求解:

  10. 做什么:高效求解NP-hard的DPP子集选择问题
  11. 核心思路:从空集出发,每步选择边际增益最大的token:\(v_{k,i} = \arg\max_{v} \log(\det(L_k^{V_k^{(i-1)} \cup \{v\}}) / \det(L_k^{V_k^{(i-1)}}))\),共选\(m\)个token(默认\(m = \lfloor 0.3|\mathcal{V}| \rfloor\)
  12. 设计动机:贪心算法对DPP有\((1-1/e)\)近似比保证,且与精确解相比计算开销可控

损失函数 / 训练策略

VisRef 是纯推理时方法,零训练。超参数:\(\delta_{\text{entropy}}=0.25\), \(m = 0.3|\mathcal{V}|\), \(K_{\max}=10\)

实验关键数据

主实验

三个视觉推理基准,准确率 (%)

模型 方法 MathVision MathVista MM-Star
InternVL3.5-8B Standard Thinking 39.2 68.1 57.2
Textual Self-Reflection 40.1 73.9 58.3
VisRef 44.6 (+5.4) 79.3 (+11.2) 63.1 (+5.9)
Qwen3-VL-8B Standard Thinking 53.8 74.1 66.5
Textual Self-Reflection 54.3 74.2 65.9 (下降!)
VisRef 56.6 (+2.8) 77.1 (+3.0) 69.1 (+2.6)
SAIL-VL2-8B Standard Thinking 29.8 73.1 47.7
VisRef 37.3 (+7.5) 78.2 (+5.1) 55.3 (+7.6)

消融实验

配置 MathVista MathVision MM-Star 说明
Standard Thinking 68.1 39.2 57.2 基线
Look-Back (RL训练) 80.8 44.2 63.7 需60h A6000
VisRef (无训练) 79.3 44.6 63.1 媲美RL方法
Look-Back + VisRef 83.1 48.2 66.0 正交互补

token选择比例消融 (MathVista, InternVL-3.5-8B)

token比例 m 准确率
20% 76.1
30% 79.2
40% 79.3
50% 79.1

关键发现

  • 文本自反思(TSR)效果不稳定甚至有害:在Qwen3-VL的MM-Star上反而下降0.6%
  • VisRef在所有模型×基准组合上一致提升,SAIL-VL2上提升最大(+7.5/+5.1/+7.6%),可能因其视觉注意力衰减更严重
  • VisRef与RL训练的Look-Back效果媲美甚至互补:组合后进一步提升(MathVista 83.1%, +2.3 over Look-Back alone)
  • 测试时缩放曲线显示:在固定token预算下生成多条VisRef推理链+投票,在任何计算预算下都优于纯文本并行思考
  • 30%视觉token即可达到饱和性能,进一步增加无明显收益
  • 注意力可视化显示VisRef使模型在推理过程中从噪声注意力逐步聚焦到任务关键的视觉区域

亮点与洞察

  • DPP用于视觉token选择极其自然:DPP天然编码"相关且多样"的目标,将视觉token投影到文本推理子空间再求行列式最大化,把直觉形式化为优雅的数学框架。行列式的分解(\(\log\det = \text{relevance} + \text{diversity}\))提供了清晰的可解释性
  • 与RL方法正交且互补:VisRef不修改模型,Look-Back修改模型行为,两者叠加可继续提升,说明视觉接地性可以从模型内外两个方向同时增强
  • 人类认知过程的计算模拟:人类解题时自然交替"看图"和"思考",VisRef是这一过程的直接计算模拟。这种设计思路可推广到其他需要多信源交替推理的场景

局限性 / 可改进方向

  • DPP核矩阵的计算和贪心选择增加了推理延迟,虽然比注入全部token快,但仍有开销
  • \(M_k\)的构建假设文本token嵌入能充分表征推理子空间的几何,对于嵌入质量差的模型可能不成立
  • 仅在8B规模模型上验证,未测试更大规模(70B+)模型是否同样受益
  • 停止准则依赖\(\delta_{\text{entropy}}\),不同数据集上最优值可能不同
  • 固定token预算\(m=0.3|\mathcal{V}|\)对所有步骤一视同仁,可探索根据推理需求动态调整\(m\)

相关工作与启发

  • vs Look-Back (RL方法): Look-Back需要60 GPU小时微调+大规模数据构建,VisRef零训练即达到可比性能。两者可叠加使用
  • vs Textual Self-Reflection (Budget Forcing): TSR仅延长文本推理链,不解决视觉衰减问题;VisRef显式注入视觉信息,在所有设置下大幅优于TSR
  • vs RED (本批另一篇): RED通过解码时合成图像条件和rationale条件logits来增强推理接地性;VisRef通过在推理过程中重注入视觉token。两者思路互补——RED在token级别操作,VisRef在context级别操作
  • DPP-based token选择思路可推广到RAG系统中的document chunk选择(相关+多样)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ DPP-based视觉token选择+推理时重注入的想法新颖且优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 3模型×3基准、与RL方法对比、缩放曲线、消融、注意力可视化
  • 写作质量: ⭐⭐⭐⭐⭐ 问题驱动,理论推导严谨,实验全面
  • 价值: ⭐⭐⭐⭐⭐ 训练-free方法达到RL方法水平,且可叠加,实用性极强