跳转至

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

会议: NeurIPS 2025
arXiv: 2505.15510
代码: 未提及
领域: 多模态VLM / LLM推理
关键词: 多模态CoT, 视觉思维, 信息流, T-MCoT, I-MCoT

一句话总结

首次从统一视角揭示多模态CoT工作的核心机制——"视觉思维"(Visual Thoughts):MCoT通过将视觉信息缓存为中间推理步骤来增强LVLM推理,类似于计算机系统中的cache vs外部存储;定义了四种视觉思维表达形式(自然语言/结构化语言/编辑图像/生成图像),发现其有效性取决于表达的清晰性和简洁性。

背景与动机

多模态CoT(MCoT)分两大范式:(1) T-MCoT(文本输入→文本推理链)——如描述图片再推理;(2) I-MCoT(交叉模态推理链)——如用工具编辑/生成图片再推理。两者孰优孰劣一直有争议:有人认为I-MCoT更符合人类认知,有人发现T-MCoT在数学场景更好。缺乏统一框架解释MCoT为什么有效、哪种形式在何种场景最优。

核心问题

不同MCoT范式增强LVLM的统一机制是什么?能否用一个概念解释所有MCoT的效果?

方法详解

核心概念:视觉思维 = 推理中的"视觉Cache"

类比计算机系统:原始图像=外部存储(慢、完整但访问成本高);视觉思维=Cache(快、只包含与问题相关的关键视觉信息)。模型从"每步都去看全图"变成"先缓存关键视觉信息到推理链中,后续步骤直接引用cache"——减少计算开销、增加推理深度。

四种视觉思维表达形式

  1. Natural Language (N-LANG): 用自然语言描述图像内容(如生成image caption作为推理前缀)
  2. Structured Language (S-LANG): 用场景图/JSON等结构化格式表达视觉信息(如{"objects": [{"name": "bus", "color": "blue"}]}
  3. Edited Image (E-IMG): 用视觉工具编辑原图(如高亮目标物体、标注边界框、深度图等)
  4. Generative Image (G-IMG): 用生成模型创建新图像(如用DALL-E 3据推理生成辅助图)

关键发现

  1. 视觉思维是MCoT的核心: 移除推理链中的视觉思维(清空cache),性能下降甚至比直接从query推理更差——证明视觉思维不可或缺

  2. 有效性取决于清晰性和简洁性:

  3. 图像形式(E-IMG/G-IMG)在"难以用文字描述"的场景更好(视觉信息保真度高)
  4. 结构化语言(S-LANG)在数学/逻辑推理场景更好(简洁且精確)
  5. 自然语言(N-LANG)通用性好但可能引入噪声

  6. 视觉思维是信息中介: 通过attention分析发现,视觉思维token在深层transformer中充当"信息中继站"——它们连接了输入图像和后续推理步骤,使深层能"间接访问"视觉信息。这与TVC(视觉遗忘)论文的发现高度互补。

  7. 文本形式 vs 图像形式的互替性: 将I-MCoT中的图像cache替换为其文本描述(caption),性能只略降——说明关键不是模态本身,而是是否传递了相关视觉信息。

实验关键数据

在GPT-4o上的验证实验: - 有视觉思维 vs 无视觉思维:CoMT-Selection准确率差10-15% - I-MCoT(Image-form) > T-MCoT(Text-form) > w/o Visual Thought > Query-Only - 对"难以描述的图像":Image-form优势更大(>20%差距) - 对"容易描述的图像":Text-form与Image-form差距缩小到<5%

四种表达形式的对比(多个benchmark平均): - S-LANG在数学推理类任务最优 - E-IMG在需要空间/几何理解的任务最优 - N-LANG通用性最好但在特定场景不如专用形式 - G-IMG创造性最强但不稳定

亮点

  • 概念统一性: "视觉思维=Cache"的类比极其直观,统一解释了T-MCoT和I-MCoT的效果
  • 四种表达形式的系统分类: 不是随意选择,而是从"清晰性×简洁性"两个维度系统评估
  • 与TVC发现互补: TVC发现推理后期视觉信息衰减→视觉思维正是解决这个问题的方法——将视觉信息"缓存"到推理链中
  • 信息中介角色的发现: 通过attention分析证明视觉思维token是连接图像和深层推理的桥梁

局限性 / 可改进方向

  • 主要在GPT-4o上验证,开源模型的结论可能不同
  • 视觉思维的"最优表达形式"依赖具体任务,没有通用策略
  • E-IMG和G-IMG需要外部工具(视觉编辑器/DALL-E),增加了系统复杂度
  • 对"何时应该生成视觉思维、何时直接推理"没有自动化决策机制
  • 未与VReST(MCTS搜索)或REVERSE(自验证)结合

与相关工作的对比

  • vs TVC (视觉遗忘): TVC在推理中重注入原图,Visual Thoughts将图像信息"翻译"为推理链中的cache——两者互补
  • vs VReST (MCTS): VReST在推理空间搜索最优路径,Visual Thoughts分析推理中视觉信息传播机制——一个是策略,一个是理解
  • vs Visual Sketchpad: Visual Sketchpad是I-MCoT的代表方法,本文提供了它为什么有效的统一解释

启发与关联

  • "视觉Cache"概念可以指导VLM架构设计——在注意力机制中显式地为视觉思维token留出cache位置
  • 四种视觉思维表达可以做自适应选择——根据问题类型自动决定用N-LANG/S-LANG/E-IMG/G-IMG
  • 与FlowCut结合:FlowCut分析信息流决定剪哪些视觉token,Visual Thoughts分析信息流解释为什么视觉cache有效——两篇从不同角度看同一个现象

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "视觉思维=Cache"概念和四种表达形式的统一框架是该领域的重要理论贡献
  • 实验充分度: ⭐⭐⭐⭐ 多benchmark验证,attention分析详尽,但主要依赖GPT-4o
  • 写作质量: ⭐⭐⭐⭐⭐ Figure 2的Cache类比和Figure 3的四种表达分类极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 为MCoT研究提供了统一理论框架,有望启发下一代MCoT方法