Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning¶
会议: ACL 2025 (Long Paper)
arXiv: 2503.13360
代码: https://sun-hailong.github.io/projects/TVC
领域: 多模态VLM / LLM推理
关键词: 视觉遗忘, 长链推理, CoT, 视觉重注入, 多模态推理
一句话总结¶
发现MLLM长链推理中存在严重的"视觉遗忘"现象——推理进行到一半时移除图片仅导致2%精度下降,说明模型过度依赖文本输出而非视觉输入。提出Take-along Visual Conditioning (TVC),在推理过程中周期性重新注入压缩后的图像特征,在5个数学推理基准上平均超越之前SOTA 3.4个点。
背景与动机¶
OpenAI o1等模型展示了长链CoT推理的威力,但多模态推理面临独特挑战。作者进行了一个关键诊断实验:在QVQ-72B的推理过程中途截断,移除图像输入后让模型继续推理——结果MathVista-Hard上精度仅从43.1%降到40.9%(差距仅2%)!这意味着推理链的后半段几乎不依赖图像,模型只是在"续写"之前生成的文本。更进一步:越早移除图像掉点越多(~20%),说明视觉依赖随推理进程呈指数衰减:ΔVisual(k) ∝ e^{-k}。
核心问题¶
如何在长链多模态推理中维持模型对视觉信息的持续关注,避免推理链后半段完全依赖文本而遗忘视觉证据?
方法详解¶
整体框架¶
两阶段方案:(1) 训练阶段——Dynamic Visual Reaffirmation (DVR)在训练数据中人工重新注入图像;(2) 推理阶段——Periodic Visual Calibration (PVC)在推理过程中周期性重新激活视觉信息。两阶段都用adaptive pooling压缩重注入的图像token(4×4池化)。
关键设计¶
- 视觉遗忘现象的量化验证:
- 在推理链的8个等间隔位置移除图像,测量精度变化
- 发现:1/8位置移除掉20%,4/8位置移除仅掉2%——近指数衰减
- 注意力分析:浅层对图像token的attention权重从0.539降到0.005
-
这不是个别现象——30.9%的样本在完全没有图像时也能答对(靠文本prompt中的隐式信息)
-
Dynamic Visual Reaffirmation (DVR) 训练:
- 在高质量长链推理数据(从QVQ生成)中,在自省点(self-reflection intervals)手动重新插入图像嵌入+桥接提示(如"Let me see the image again")
-
使模型学会"回看图片"的行为模式
-
Periodic Visual Calibration (PVC) 推理:
- 推理时在每个自省间隔周期性重新引入视觉输入
- 图像经过adaptive pooling压缩到4×4=16个token(原始可能数百个)
- 类比人类解题时反复看题目图片的行为
损失函数 / 训练策略¶
- 基于Qwen2-VL-7B和72B做SFT
- 训练数据从MathV360K, Geo170K, LLaVA-OneVision策展
- adaptive pooling将重注入图像从原始token数压缩到16个
实验关键数据¶
| 模型 | Size | MathVista | MathVision | MathVerse | DynaMath | OlympiadBench | Avg |
|---|---|---|---|---|---|---|---|
| Qwen2-VL | 7B | 60.9 | 16.3 | 24.6 | 11.0 | 3.2 | 23.2 |
| QVQ-72B | 72B | 71.4 | 35.9 | 41.5 | 30.7 | 20.4 | 40.0 |
| TVC | 7B | 68.1 | 22.7 | 38.9 | 15.1 | 9.8 | 30.9 |
| TVC | 72B | 72.2 | 41.9 | 48.8 | 30.0 | 24.3 | 43.4 |
- TVC-72B平均超越QVQ-72B 3.4个点
- TVC-7B在MathVerse(38.9%)甚至超越许多27B-72B模型
- MathVision: +6.0(72B), +6.4(7B) vs Qwen2-VL基线
消融实验要点¶
- DVR + PVC: 两者都有贡献,联合使用最优(33.9→43.2, +9.3)
- PVC单独: 66.7 vs Full TVC 68.1,说明推理时视觉重注入有价值
- DVR单独: 66.2 vs Full TVC 68.1,说明训练阶段的视觉重注入习惯也重要
- 压缩率: 4×4池化是最优平衡——2×2太粗丢信息,8×8太多增开销
- 重注入频率: 每阶段注入一次最优,过于频繁反而分散推理注意力
亮点¶
- 关键发现推动设计: "视觉遗忘"现象的量化验证(2%精度差距)是非常有说服力的动机
- 类比人类行为: 人类解题时反复看图——TVC模拟了这一认知过程
- 7B模型打败72B: TVC-7B在MathVerse上超越Qwen2-VL-72B和LLaVA-OneVision-72B
- 简洁有效: 只需要在关键位置重新注入压缩图像,不改变模型架构
局限性 / 可改进方向¶
- 重注入位置是基于固定间隔的,未做自适应(根据推理难度决定何时回看图片)
- 仅在数学推理任务验证,通用VQA、自然图像问答可能效果不同
- adaptive pooling可能丢失关键细节(如小字、公式中的关键符号)
- 训练数据策展过程依赖QVQ生成,受限于QVQ的质量
- 未与VReST(树搜索)结合——如果在MCTS每步都重注入视觉信息可能更强
与相关工作的对比¶
- vs VReST: VReST用MCTS探索推理空间,TVC解决推理过程中的视觉遗忘——两者互补
- vs Improve VLM CoT (SFT+DPO): 那篇用DPO校准推理质量,TVC解决推理过程中视觉信息流失——不同维度
- vs FastV: FastV做视觉token剪枝加速,TVC反其道——在需要时重新补充视觉token
启发与关联¶
- "视觉遗忘"现象可能在所有长序列多模态任务中存在——不只是数学推理,长视频理解也可能有类似问题
- TVC + VReST组合:在MCTS的每个扩展节点重注入压缩图像,可能显著提升
- 视觉token的自适应重注入可以用VHD(Vision-aware Head Divergence)来判断"何时需要回看图片"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "视觉遗忘"现象的发现和量化是该领域的重要贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 5个benchmark、诊断实验+注意力分析+消融极其详尽
- 写作质量: ⭐⭐⭐⭐⭐ Figure 1的诊断实验图和Figure 2的注意力可视化直接说明问题
- 价值: ⭐⭐⭐⭐⭐ 对多模态长链推理的根本性insight,具有广泛适用性