VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models¶

会议: CVPR 2026
arXiv: 2603.00207
代码: 无
领域: LLM推理
关键词: 视觉重聚焦, 测试时缩放, 多模态推理, 行列式点过程, 无训练

一句话总结¶

提出 VisRef，一个无需训练的视觉重聚焦框架，在多模态推理每一步通过 DPP 选择与当前推理状态相关且多样的视觉token子集重新注入，配合基于熵的自适应停止准则，在三个视觉推理基准上比文本自反思方法提升最高6.4%。

研究背景与动机¶

领域现状：多模态大推理模型(MLRMs)如 InternVL-3.5、Qwen3-VL 等通过生成显式思维链(thinking traces)在视觉推理任务上取得强劲表现。测试时缩放(test-time scaling)通过分配更多推理计算来提升性能。
现有痛点：随着推理链变长，视觉token在不断扩展的上下文窗口中被稀释，模型逐渐依赖文本先验而非视觉信息。现有测试时缩放方法（如自反思、budget forcing）本质上是纯文本的，只延长文本推理而不维护视觉接地性。
核心矛盾：RL微调方法（如 Look-Back）可以教模型"回看"视觉信息，但计算成本高（60 GPU小时A6000）且需要大规模数据。纯文本的测试时缩放不仅无效，有时甚至有害（视觉注意力持续衰减）。
本文要解决什么？ 能否在完全不微调的情况下，在测试时恢复和维持视觉接地性？
切入角度：模仿人类解题时"看图→思考→回看图→继续思考"的交替过程，在每个推理步骤自适应地选择并重新注入一部分视觉token。用DPP平衡相关性和多样性，用熵停止准则防止过度思考。
核心idea一句话：在推理每步用DPP选择与当前推理上下文相关且多样化的视觉token coreset重新注入，无训练地保持视觉接地性。

方法详解¶

整体框架¶

输入：图像\(I\)+文本提示\(T\)。输出：最终答案\(y\)。方法循环执行：(1) 生成一步推理\(z_k\)；(2) 用DPP从所有视觉token中选出子集\(V_k\)；(3) 将\(V_k\)注入上下文作为视觉重聚焦；(4) 检查熵是否低于阈值。终止后生成最终答案。

关键设计¶

DPP-based 视觉token选择:
做什么：在每个推理步骤选择既与当前推理相关又彼此多样的视觉token子集
核心思路：给定推理步骤\(z_k\)的文本token嵌入，构建文本子空间矩阵\(M_k = \sum_{j=1}^{T_k} z_k^{(j)} (z_k^{(j)})^\top\)。将visual token投影到该子空间：\(\phi_k(v) = M_k^{1/2} v\)。构造DPP核矩阵\(L_k(v_i, v_j) = \phi_k(v_i)^\top \phi_k(v_j)\)。目标：\(\tilde{V}_k = \arg\max_{V_k \subseteq \mathcal{V}} \det(L_k^{V_k})\)。行列式目标自然分解为相关性项（token与文本子空间的对齐度 \(\sum \log r_i^2\)）和多样性项（\(\log\det(\bar{L}_k^{V_k})\)）
设计动机：朴素方法——注入所有视觉token计算量太大（上下文长度膨胀2.3倍），而随机选择无法保证相关性。DPP天然平衡相关性和多样性，且贪心近似有理论保证
基于熵的自适应停止准则:
做什么：自动决定何时停止推理并输出答案
核心思路：每步计算模型回答分布的熵 \(H_k = -\mathbb{E}_{y \sim \pi_\theta}[\log \pi_\theta(y | x_{\text{input}}, \tau_{1:k})]\)。当\(H_k < \delta_{\text{entropy}}\)（默认0.25）或达到最大步数\(K_{\max}=10\)时停止
设计动机：简单问题应早停（节省计算），困难问题需要更多推理步骤。基于熵可自适应调配每题的计算量，防止过度思考(overthinking)导致性能退化
贪心近似求解:
做什么：高效求解NP-hard的DPP子集选择问题
核心思路：从空集出发，每步选择边际增益最大的token：\(v_{k,i} = \arg\max_{v} \log(\det(L_k^{V_k^{(i-1)} \cup \{v\}}) / \det(L_k^{V_k^{(i-1)}}))\)，共选\(m\)个token（默认\(m = \lfloor 0.3|\mathcal{V}| \rfloor\)）
设计动机：贪心算法对DPP有\((1-1/e)\)近似比保证，且与精确解相比计算开销可控

损失函数 / 训练策略¶

VisRef 是纯推理时方法，零训练。超参数：\(\delta_{\text{entropy}}=0.25\), \(m = 0.3|\mathcal{V}|\), \(K_{\max}=10\)。

实验关键数据¶

主实验¶

三个视觉推理基准，准确率 (%)

模型	方法	MathVision	MathVista	MM-Star
InternVL3.5-8B	Standard Thinking	39.2	68.1	57.2
	Textual Self-Reflection	40.1	73.9	58.3
	VisRef	44.6 (+5.4)	79.3 (+11.2)	63.1 (+5.9)
Qwen3-VL-8B	Standard Thinking	53.8	74.1	66.5
	Textual Self-Reflection	54.3	74.2	65.9 (下降!)
	VisRef	56.6 (+2.8)	77.1 (+3.0)	69.1 (+2.6)
SAIL-VL2-8B	Standard Thinking	29.8	73.1	47.7
	VisRef	37.3 (+7.5)	78.2 (+5.1)	55.3 (+7.6)

消融实验¶

配置	MathVista	MathVision	MM-Star	说明
Standard Thinking	68.1	39.2	57.2	基线
Look-Back (RL训练)	80.8	44.2	63.7	需60h A6000
VisRef (无训练)	79.3	44.6	63.1	媲美RL方法
Look-Back + VisRef	83.1	48.2	66.0	正交互补

token选择比例消融 (MathVista, InternVL-3.5-8B)

token比例 m	准确率
20%	76.1
30%	79.2
40%	79.3
50%	79.1

关键发现¶

文本自反思(TSR)效果不稳定甚至有害：在Qwen3-VL的MM-Star上反而下降0.6%
VisRef在所有模型×基准组合上一致提升，SAIL-VL2上提升最大（+7.5/+5.1/+7.6%），可能因其视觉注意力衰减更严重
VisRef与RL训练的Look-Back效果媲美甚至互补：组合后进一步提升（MathVista 83.1%, +2.3 over Look-Back alone）
测试时缩放曲线显示：在固定token预算下生成多条VisRef推理链+投票，在任何计算预算下都优于纯文本并行思考
30%视觉token即可达到饱和性能，进一步增加无明显收益
注意力可视化显示VisRef使模型在推理过程中从噪声注意力逐步聚焦到任务关键的视觉区域

亮点与洞察¶

DPP用于视觉token选择极其自然：DPP天然编码"相关且多样"的目标，将视觉token投影到文本推理子空间再求行列式最大化，把直觉形式化为优雅的数学框架。行列式的分解（\(\log\det = \text{relevance} + \text{diversity}\)）提供了清晰的可解释性
与RL方法正交且互补：VisRef不修改模型，Look-Back修改模型行为，两者叠加可继续提升，说明视觉接地性可以从模型内外两个方向同时增强
人类认知过程的计算模拟：人类解题时自然交替"看图"和"思考"，VisRef是这一过程的直接计算模拟。这种设计思路可推广到其他需要多信源交替推理的场景

局限性 / 可改进方向¶

DPP核矩阵的计算和贪心选择增加了推理延迟，虽然比注入全部token快，但仍有开销
\(M_k\)的构建假设文本token嵌入能充分表征推理子空间的几何，对于嵌入质量差的模型可能不成立
仅在8B规模模型上验证，未测试更大规模（70B+）模型是否同样受益
停止准则依赖\(\delta_{\text{entropy}}\)，不同数据集上最优值可能不同
固定token预算\(m=0.3|\mathcal{V}|\)对所有步骤一视同仁，可探索根据推理需求动态调整\(m\)

评分¶

新颖性: ⭐⭐⭐⭐⭐ DPP-based视觉token选择+推理时重注入的想法新颖且优雅
实验充分度: ⭐⭐⭐⭐⭐ 3模型×3基准、与RL方法对比、缩放曲线、消融、注意力可视化
写作质量: ⭐⭐⭐⭐⭐ 问题驱动，理论推导严谨，实验全面
价值: ⭐⭐⭐⭐⭐ 训练-free方法达到RL方法水平，且可叠加，实用性极强