VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models¶

会议: CVPR 2026
arXiv: 2603.00207
代码: 待确认
领域: 多模态VLM / LLM推理 / 测试时缩放
关键词: 视觉重聚焦, 测试时缩放, 多模态推理, 注意力退化, coreset选择

一句话总结¶

发现多模态推理模型在延长推理时会逐渐丢失对视觉token的注意力，提出VisRef在推理过程中主动重新注入与当前推理上下文语义相关的视觉token核心子集，在固定计算预算下比现有方法提升最高6.4%。

背景与动机¶

大推理模型（如o1/QwQ系列）通过延长推理时间（test-time compute scaling）来提升复杂推理任务的表现。但最近研究发现一个反直觉的现象：在视觉依赖任务上，更长的推理反而会降低性能。原因是模型在长链推理过程中，注意力逐渐从视觉token转移到文本token，最终完全依赖文本先验而忽略视觉证据。现有修复方法要么用RL微调来路由视觉token，要么用重聚焦机制——但都需要大规模数据和策略优化，成本很高。

核心问题¶

如何在不做额外RL微调的前提下，让多模态推理模型在延长推理时仍然保持对视觉信息的关注？核心矛盾在于：推理链越长→文本token越多→视觉token在attention中的占比越小→模型越"忘记"图像内容。需要一种"提醒"机制，在推理过程中定期将模型的注意力拉回视觉证据。

方法详解¶

整体框架¶

VisRef是一个免微调的测试时缩放框架。在模型的推理过程中（thinking chain），周期性地从原始视觉token中选取一个核心子集（coreset）重新注入到推理上下文中。这个coreset需要满足两个条件：(1) 与当前推理步骤语义相关，(2) 全局代表性——能覆盖图像的关键信息。

关键设计¶

视觉注意力退化诊断: 首先定量分析了推理过程中视觉token注意力的变化——随着推理步数增加，attention权重从视觉token持续转移到文本token。这不是偶然现象，而是所有测试过的多模态推理模型的共性问题。
语义相关+多样的Coreset选择: 在每个重聚焦点，根据当前推理上下文从所有视觉token中选择coreset。选择标准：与推理上下文的语义相似度（相关性）+ token间的多样性（全局代表性）。这确保重新注入的视觉信息既"答题"又"全面"。
免微调部署: 整个过程不需要修改模型权重，不需要RL训练，直接在推理时执行。相比需要大规模数据生成和策略优化的RL方法，VisRef几乎零额外成本。

损失函数 / 训练策略¶

无需训练。Coreset选择通过一次前向推理中的attention权重和嵌入相似度计算完成。

实验关键数据¶

Benchmark	模型	VisRef提升	vs 现有TTS方法
3个视觉推理benchmark	SOTA多模态推理模型	最高+6.4%	一致更优

消融实验要点¶

单独"语义相关"或单独"多样性"都不够——必须两者结合
重聚焦频率存在sweet spot——太频繁反而打断推理流
在固定计算预算下，VisRef比简单增加推理长度更有效

亮点 / 我学到了什么¶

🔥🔥 核心发现：延长推理在视觉任务中可能有害！ 这揭示了当前多模态推理模型的根本性缺陷——语言主导的注意力会随时间"淹没"视觉信息
免微调的修复方案 — 证明这个问题不需要改模型就能缓解，用推理时的注意力管理即可
Coreset选择的"相关+多样"双重标准可以推广到其他"从大集合中选代表子集"的场景
名字起得好："Visual Refocusing while Thinking" — 人类解题时也会反复看图

局限性 / 可改进方向¶

重聚焦的时机是预设的（固定间隔），能否让模型自己决定何时需要"回头看"？
6.4%的提升虽然一致，但是否足够处理更复杂的视觉推理？
能否和RL-based方法结合——VisRef做粗粒度修复，RL做精细优化？
→ 直接关联idea: causal_process_reward_vision.md / process_aware_alignment.md

与相关工作的对比¶

vs RL-based视觉token路由: RL方法需要大规模数据和训练，VisRef零训练成本。但RL方法可能在极端场景下更精确
vs 简单重复视觉token: VisRef不是简单地重复同样的视觉输入，而是根据推理上下文选择最相关的子集——更高效且更精准
vs 不做test-time scaling: VisRef证明了"缩放也要缩放对"——盲目延长推理可能越来越偏离视觉证据

与我的研究方向的关联¶

🔥 与 causal_process_reward_vision.md 直接相关——VisRef解决的问题正是"推理过程中视觉信号衰减"
与 process_aware_alignment.md 互补——一个关注过程对齐，一个关注视觉保持
对"thinking model + vision"方向有根本性启发

评分¶

新颖性: ⭐⭐⭐⭐⭐ 揭示了多模态推理的根本性问题+优雅的免训练解决方案
实验充分度: ⭐⭐⭐⭐ 三个benchmark一致证明，但实验规模可以更大
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，motivation compelling
对我的价值: ⭐⭐⭐⭐⭐ 直接相关：视觉推理+过程奖励方向