跳转至

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

会议: CVPR 2026
arXiv: 2603.00207
代码: 待确认
领域: 多模态VLM / LLM推理 / 测试时缩放
关键词: 视觉重聚焦, 测试时缩放, 多模态推理, 注意力退化, coreset选择

一句话总结

发现多模态推理模型在延长推理时会逐渐丢失对视觉token的注意力,提出VisRef在推理过程中主动重新注入与当前推理上下文语义相关的视觉token核心子集,在固定计算预算下比现有方法提升最高6.4%。

背景与动机

大推理模型(如o1/QwQ系列)通过延长推理时间(test-time compute scaling)来提升复杂推理任务的表现。但最近研究发现一个反直觉的现象:在视觉依赖任务上,更长的推理反而会降低性能。原因是模型在长链推理过程中,注意力逐渐从视觉token转移到文本token,最终完全依赖文本先验而忽略视觉证据。现有修复方法要么用RL微调来路由视觉token,要么用重聚焦机制——但都需要大规模数据和策略优化,成本很高。

核心问题

如何在不做额外RL微调的前提下,让多模态推理模型在延长推理时仍然保持对视觉信息的关注?核心矛盾在于:推理链越长→文本token越多→视觉token在attention中的占比越小→模型越"忘记"图像内容。需要一种"提醒"机制,在推理过程中定期将模型的注意力拉回视觉证据。

方法详解

整体框架

VisRef是一个免微调的测试时缩放框架。在模型的推理过程中(thinking chain),周期性地从原始视觉token中选取一个核心子集(coreset)重新注入到推理上下文中。这个coreset需要满足两个条件:(1) 与当前推理步骤语义相关,(2) 全局代表性——能覆盖图像的关键信息。

关键设计

  1. 视觉注意力退化诊断: 首先定量分析了推理过程中视觉token注意力的变化——随着推理步数增加,attention权重从视觉token持续转移到文本token。这不是偶然现象,而是所有测试过的多模态推理模型的共性问题。
  2. 语义相关+多样的Coreset选择: 在每个重聚焦点,根据当前推理上下文从所有视觉token中选择coreset。选择标准:与推理上下文的语义相似度(相关性)+ token间的多样性(全局代表性)。这确保重新注入的视觉信息既"答题"又"全面"。
  3. 免微调部署: 整个过程不需要修改模型权重,不需要RL训练,直接在推理时执行。相比需要大规模数据生成和策略优化的RL方法,VisRef几乎零额外成本。

损失函数 / 训练策略

无需训练。Coreset选择通过一次前向推理中的attention权重和嵌入相似度计算完成。

实验关键数据

Benchmark 模型 VisRef提升 vs 现有TTS方法
3个视觉推理benchmark SOTA多模态推理模型 最高+6.4% 一致更优

消融实验要点

  • 单独"语义相关"或单独"多样性"都不够——必须两者结合
  • 重聚焦频率存在sweet spot——太频繁反而打断推理流
  • 在固定计算预算下,VisRef比简单增加推理长度更有效

亮点 / 我学到了什么

  • 🔥🔥 核心发现:延长推理在视觉任务中可能有害! 这揭示了当前多模态推理模型的根本性缺陷——语言主导的注意力会随时间"淹没"视觉信息
  • 免微调的修复方案 — 证明这个问题不需要改模型就能缓解,用推理时的注意力管理即可
  • Coreset选择的"相关+多样"双重标准可以推广到其他"从大集合中选代表子集"的场景
  • 名字起得好:"Visual Refocusing while Thinking" — 人类解题时也会反复看图

局限性 / 可改进方向

  • 重聚焦的时机是预设的(固定间隔),能否让模型自己决定何时需要"回头看"?
  • 6.4%的提升虽然一致,但是否足够处理更复杂的视觉推理?
  • 能否和RL-based方法结合——VisRef做粗粒度修复,RL做精细优化?
  • → 直接关联idea: causal_process_reward_vision.md / process_aware_alignment.md

与相关工作的对比

  • vs RL-based视觉token路由: RL方法需要大规模数据和训练,VisRef零训练成本。但RL方法可能在极端场景下更精确
  • vs 简单重复视觉token: VisRef不是简单地重复同样的视觉输入,而是根据推理上下文选择最相关的子集——更高效且更精准
  • vs 不做test-time scaling: VisRef证明了"缩放也要缩放对"——盲目延长推理可能越来越偏离视觉证据

与我的研究方向的关联

  • 🔥 与 causal_process_reward_vision.md 直接相关——VisRef解决的问题正是"推理过程中视觉信号衰减"
  • process_aware_alignment.md 互补——一个关注过程对齐,一个关注视觉保持
  • 对"thinking model + vision"方向有根本性启发

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 揭示了多模态推理的根本性问题+优雅的免训练解决方案
  • 实验充分度: ⭐⭐⭐⭐ 三个benchmark一致证明,但实验规模可以更大
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,motivation compelling
  • 对我的价值: ⭐⭐⭐⭐⭐ 直接相关:视觉推理+过程奖励方向