Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization¶

会议: ACL 2026
arXiv: 2601.04442
代码: 无
领域: Multimodal VLM / Adaptive Computation
关键词: 过度思考, 感知-推理分离, 元推理控制器, 自适应计算, 多目标强化学习

一句话总结¶

提出GPRO框架，通过元推理控制器在每个token生成步动态路由计算到三条路径（快速/感知重检/推理反思），解决LVLM的过度思考问题，同时提升精度和效率。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）通过chain-of-thought机制展现了强大的推理能力，但这种"慢思考"方法经常导致过度思考——即使对简单问题也生成冗长的推理链。

现有痛点：(1) 过度思考不仅浪费计算资源，有时还会引入错误；(2) 现有的自适应推理方法忽略了一个关键瓶颈——视觉感知失败。大规模分析表明，LVLM错误中感知失败的频率是推理错误的两倍以上。

核心矛盾：当错误源于"看错了"而非"想错了"时，增加推理深度不仅无用，反而可能引入更多错误。现有方法仅关注推理自适应，完全忽略感知自适应。

本文目标：设计一个同时考虑感知不确定性和推理不确定性的自适应计算框架。

切入角度：借鉴认知科学中的双系统理论（Kahneman），人类解题时会在快速直觉、视觉重检和深度推理之间灵活切换。

核心 idea：通过大规模失败归因监督（79万样本）区分感知错误和推理错误，训练元推理控制器实现三路动态计算分配。

方法详解¶

整体框架¶

GPRO在Transformer decoder的交替层插入GPR模块，替换标准FFN层。每个GPR模块包含元推理控制器和三条计算路径。控制器在每个token生成步根据内部状态决定激活哪条路径。

关键设计¶

元推理控制器:
- 功能：在每个token生成步做出路径选择决策
- 核心思路：2层轻量Transformer接收三个信号——当前隐藏状态 \(h_t\)（语义上下文）、预测熵 \(U_t\)（不确定性度量）、全局图像特征 \(V_g\)（视觉复杂度），输出离散动作 \(a_t \in \{\text{fast}, \text{perception}, \text{reasoning}\}\)
- 设计动机：三个信号互补——隐藏状态反映"当前在想什么"，熵反映"有多不确定"，图像特征反映"视觉输入有多复杂"
三条计算路径:
- 功能：针对不同类型的计算需求提供专门处理
- 核心思路：Fast Path使用原始FFN（低成本直接生成）；Slow Perception Path通过cross-attention重新审视视觉特征 \(\text{Perc}(h_t, V) = \text{CrossAttn}(h_t, V, V)\)；Slow Reasoning Path通过meta-Transformer进行内部自我反思 \(\text{Reas}(h_t, H_{<t}) = \text{MetaTrans}(h_t, H_{<t})\)
- 设计动机：感知错误需要"重看图像"，推理错误需要"重新思考"，分而治之比统一处理更高效
大规模失败归因监督:
- 功能：为控制器提供区分感知/推理失败的训练信号
- 核心思路：在约79万样本上运行Qwen2.5-VL收集错误案例，用GPT-4对每个错误归因为"视觉感知失败"或"推理错误"，构建带标签的训练集
- 设计动机：标准benchmark仅提供最终答案正确与否，缺乏"哪个认知阶段出错"的信号

损失函数 / 训练策略¶

多目标PPO训练，奖励函数 \(R(\tau) = R_{task} + \alpha_c R_{cost} + \alpha_l R_{cal}\)。Task Reward为正确+1；Cost Reward惩罚慢路径激活；Calibration Reward确保不确定性分数与实际错误对齐（错误前应高、正确前应低）。

实验关键数据¶

主实验（Qwen2.5-VL-7B基座）¶

方法	MathVision Acc	MathVerse Acc	MathVista Acc	平均响应长度
Base Qwen2.5-VL-7B	24.1	38.5	65.1	~350
Mulberry	比base提升	比base提升	比base提升	较长
GPRO-7B	显著提升	显著提升	显著提升	大幅缩短

消融实验¶

配置	关键指标	说明
移除Perception Path	精度下降明显	感知重检对纠错至关重要
移除Reasoning Path	精度略降	推理自反思有辅助作用
移除Calibration Reward	路径选择退化	不确定性校准是控制器的关键信号
错误归因分析	感知>推理 2:1	验证了"感知是主要瓶颈"的核心论点

关键发现¶

GPRO在5个benchmark上同时提升精度和效率（更短响应），打破了"更准=更长"的假设
视觉感知失败确实是LVLM错误的主要来源（占比超过2/3），不是推理不足
三路控制器学到了有意义的路由策略——简单问题走Fast Path，视觉歧义走Perception Path

亮点与洞察¶

"过度思考的根源可能不是想得不够，而是看得不清"——这一洞察改变了对LVLM推理优化的思考方向
大规模失败归因数据的构建方法可复用——用强模型标注弱模型的错误类型是一种通用的监督生成策略
三路计算架构优雅地将认知科学的双系统理论工程化

局限与展望¶

GPT-4的失败归因可能本身存在偏差，需要更可靠的归因方法
元推理控制器增加了模型复杂度，部署时需要额外工程
3B和7B模型已验证，但更大规模模型的适用性未测试
未来可探索更细粒度的感知路径（如区域级重检vs全图重检）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 感知-推理分离的自适应计算是全新范式
实验充分度: ⭐⭐⭐⭐ 5个benchmark、消融、归因分析
写作质量: ⭐⭐⭐⭐ 动机论证有力，架构描述清晰
价值: ⭐⭐⭐⭐⭐ 对LVLM推理优化有范式性影响