Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought¶

会议: NeurIPS 2025
arXiv: 2505.15510
代码: 未提及
领域: 多模态VLM / LLM推理
关键词: 多模态CoT, 视觉思维, 信息流, T-MCoT, I-MCoT

一句话总结¶

首次从统一视角揭示多模态CoT工作的核心机制——"视觉思维"(Visual Thoughts)：MCoT通过将视觉信息缓存为中间推理步骤来增强LVLM推理，类似于计算机系统中的cache vs外部存储；定义了四种视觉思维表达形式（自然语言/结构化语言/编辑图像/生成图像），发现其有效性取决于表达的清晰性和简洁性。

背景与动机¶

多模态CoT（MCoT）分两大范式：(1) T-MCoT（文本输入→文本推理链）——如描述图片再推理；(2) I-MCoT（交叉模态推理链）——如用工具编辑/生成图片再推理。两者孰优孰劣一直有争议：有人认为I-MCoT更符合人类认知，有人发现T-MCoT在数学场景更好。缺乏统一框架解释MCoT为什么有效、哪种形式在何种场景最优。

核心问题¶

不同MCoT范式增强LVLM的统一机制是什么？能否用一个概念解释所有MCoT的效果？

方法详解¶

核心概念：视觉思维 = 推理中的"视觉Cache"¶

类比计算机系统：原始图像=外部存储（慢、完整但访问成本高）；视觉思维=Cache（快、只包含与问题相关的关键视觉信息）。模型从"每步都去看全图"变成"先缓存关键视觉信息到推理链中，后续步骤直接引用cache"——减少计算开销、增加推理深度。

四种视觉思维表达形式¶

Natural Language (N-LANG): 用自然语言描述图像内容（如生成image caption作为推理前缀）
Structured Language (S-LANG): 用场景图/JSON等结构化格式表达视觉信息（如{"objects": [{"name": "bus", "color": "blue"}]}）
Edited Image (E-IMG): 用视觉工具编辑原图（如高亮目标物体、标注边界框、深度图等）
Generative Image (G-IMG): 用生成模型创建新图像（如用DALL-E 3据推理生成辅助图）

关键发现¶

视觉思维是MCoT的核心: 移除推理链中的视觉思维（清空cache），性能下降甚至比直接从query推理更差——证明视觉思维不可或缺
有效性取决于清晰性和简洁性:
图像形式(E-IMG/G-IMG)在"难以用文字描述"的场景更好（视觉信息保真度高）
结构化语言(S-LANG)在数学/逻辑推理场景更好（简洁且精確）
自然语言(N-LANG)通用性好但可能引入噪声
视觉思维是信息中介: 通过attention分析发现，视觉思维token在深层transformer中充当"信息中继站"——它们连接了输入图像和后续推理步骤，使深层能"间接访问"视觉信息。这与TVC（视觉遗忘）论文的发现高度互补。
文本形式 vs 图像形式的互替性: 将I-MCoT中的图像cache替换为其文本描述（caption），性能只略降——说明关键不是模态本身，而是是否传递了相关视觉信息。

实验关键数据¶

在GPT-4o上的验证实验： - 有视觉思维 vs 无视觉思维：CoMT-Selection准确率差10-15% - I-MCoT(Image-form) > T-MCoT(Text-form) > w/o Visual Thought > Query-Only - 对"难以描述的图像"：Image-form优势更大（>20%差距） - 对"容易描述的图像"：Text-form与Image-form差距缩小到<5%

四种表达形式的对比（多个benchmark平均）： - S-LANG在数学推理类任务最优 - E-IMG在需要空间/几何理解的任务最优 - N-LANG通用性最好但在特定场景不如专用形式 - G-IMG创造性最强但不稳定

亮点¶

概念统一性: "视觉思维=Cache"的类比极其直观，统一解释了T-MCoT和I-MCoT的效果
四种表达形式的系统分类: 不是随意选择，而是从"清晰性×简洁性"两个维度系统评估
与TVC发现互补: TVC发现推理后期视觉信息衰减→视觉思维正是解决这个问题的方法——将视觉信息"缓存"到推理链中
信息中介角色的发现: 通过attention分析证明视觉思维token是连接图像和深层推理的桥梁

局限性 / 可改进方向¶

主要在GPT-4o上验证，开源模型的结论可能不同
视觉思维的"最优表达形式"依赖具体任务，没有通用策略
E-IMG和G-IMG需要外部工具（视觉编辑器/DALL-E），增加了系统复杂度
对"何时应该生成视觉思维、何时直接推理"没有自动化决策机制
未与VReST（MCTS搜索）或REVERSE（自验证）结合

与相关工作的对比¶

vs TVC (视觉遗忘): TVC在推理中重注入原图，Visual Thoughts将图像信息"翻译"为推理链中的cache——两者互补
vs VReST (MCTS): VReST在推理空间搜索最优路径，Visual Thoughts分析推理中视觉信息传播机制——一个是策略，一个是理解
vs Visual Sketchpad: Visual Sketchpad是I-MCoT的代表方法，本文提供了它为什么有效的统一解释

启发与关联¶

"视觉Cache"概念可以指导VLM架构设计——在注意力机制中显式地为视觉思维token留出cache位置
四种视觉思维表达可以做自适应选择——根据问题类型自动决定用N-LANG/S-LANG/E-IMG/G-IMG
与FlowCut结合：FlowCut分析信息流决定剪哪些视觉token，Visual Thoughts分析信息流解释为什么视觉cache有效——两篇从不同角度看同一个现象

评分¶

新颖性: ⭐⭐⭐⭐⭐ "视觉思维=Cache"概念和四种表达形式的统一框架是该领域的重要理论贡献
实验充分度: ⭐⭐⭐⭐ 多benchmark验证，attention分析详尽，但主要依赖GPT-4o
写作质量: ⭐⭐⭐⭐⭐ Figure 2的Cache类比和Figure 3的四种表达分类极其清晰
价值: ⭐⭐⭐⭐⭐ 为MCoT研究提供了统一理论框架，有望启发下一代MCoT方法