GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training¶
会议: ICCV 2025
arXiv: 2503.08525
代码: 无(未提及)
领域: 多模态VLM / Agent / 强化学习
关键词: VLM agent, thought collapse, RLVR, chain-of-thought, 过程引导, GUI agent
一句话总结¶
发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"(thought collapse)——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理,无需人工标注,LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。
背景与动机¶
RLVR(Reinforcement Learning with Verifiable Rewards)在LLM中成功scale up了CoT推理能力(如DeepSeek-R1),但将其应用于VLM agent的视觉环境推理时效果不佳。核心问题在于:VLM agent需要同时进行视觉理解→思维推理→动作决策,但仅基于最终动作结果的奖励信号(outcome-based reward)无法有效激励中间的思维推理过程。
核心问题¶
为什么RLVR在VLM agent训练中失效?如何在不需要密集人工标注的情况下,引导VLM agent学会有意义的思维推理?
方法详解¶
整体框架¶
GTR在标准RLVR的基础上增加了一个自动化的思维纠正器(corrector),在每个RL训练步中评估agent的推理质量并提供修正信号,使RL能同时优化推理过程和动作输出。
关键设计¶
-
Thought Collapse的发现与分析:核心发现——当VLM agent仅用outcome reward做RL时,模型的思维(CoT reasoning)会快速"坍塌",表现为:(a) 推理内容多样性急剧下降(所有输入产生几乎相同的思维模板);(b) 推理与当前状态无关(不看图就生成固定reasoning);(c) 推理不完整导致无效动作。这是因为outcome reward的稀疏性和延迟性使得模型走捷径——直接记忆"哪些动作模式容易得到奖励"而放弃真正的推理。
-
自动纠正器(Automated Corrector):在每个RL步,纠正器评估agent当前的思维推理质量,检查推理是否:(a) 与当前视觉输入相关;(b) 逻辑上连贯;(c) 支持最终动作决策。如果不满足,纠正器生成修正后的推理作为引导信号。关键创新在于纠正器是自动化的、不需要人工per-step标注——它利用更强的模型(或规则)来评估推理质量。
-
Guided Thought Reinforcement:将纠正器的引导信号融入RL训练中,既用outcome reward优化动作,又用process guidance优化推理过程。这使得模型同时学会"怎么想"和"怎么做",避免思维坍塌。
损失函数 / 训练策略¶
基于RLVR框架,额外加入process reward/guidance信号。在24点纸牌游戏和ALFWorld具身任务上训练和评估。
实验关键数据¶
- 基于LLaVA-7b(很小的模型),GTR在多种视觉环境中任务成功率提升3-5倍
- 超越了显著更大的SoTA模型(以更小的模型尺寸)
- 在24点纸牌游戏和ALFWorld具身任务上均有效
- Thought collapse定量分析:无GTR时推理多样性在训练早期即降至接近零
消融实验要点¶
- 仅outcome reward → thought collapse,任务成功率极低
- 加入process guidance → 推理多样性保持,成功率大幅提升
- 自动纠正器 vs 人工标注:自动化方案可扩展且效果相当
- 推理质量与最终动作质量高度正相关——好的推理是好动作的前提
亮点¶
- "Thought Collapse"概念是重要贡献:首次系统定义和分析了VLM agent RL训练中的推理退化现象
- Process guidance的必要性:证明了RLVR在VLM agent中仅靠outcome reward不够——这对整个agent RL社区有指导意义
- 自动纠正器的可扩展性:不需要密集人工标注,使得方法可以规模化应用
- 小模型大性能:LLaVA-7b通过GTR训练后超越了显著更大的models——证明训练方法比模型大小更重要
- 后续CVPR2026的GTR-Turbo进一步验证了框架的有效性和持续发展
局限性 / 可改进方向¶
- 自动纠正器的质量依赖于底层评估能力
- 仅在纸牌游戏和ALFWorld上验证,真实世界GUI agent场景未测试
- 纠正器增加了训练时的计算开销
- 从thought collapse到正常推理的recovery过程可能需要更深入研究
与相关工作的对比¶
- vs. DeepSeek-R1:R1证明RLVR可以scale up LLM的CoT;GTR发现RLVR直接用于VLM agent会thought collapse,需要process guidance
- vs. LLaVA-CoT:LLaVA-CoT通过数据构建让VLM学会结构化推理(训练数据层面);GTR通过RL训练策略让VLM学会推理(训练方法层面)——互补
- vs. o1/R1 for vision:GTR可以看作是"将R1的成功扩展到视觉agent"的首个系统尝试
启发与关联¶
- Thought collapse现象可能在其他RL-for-generation场景中也存在(如RL-based图像生成优化)
- Process guidance的思路与LLaVA-CoT的结构化推理训练形成互补——一个是数据驱动,一个是RL驱动
- 与Scaling Laws for NMM结合:如果NMM可以从零学习视觉,那么GTR可能帮助NMM从零学习视觉推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "Thought Collapse"的发现是重要认知贡献,GTR的自动纠正器+过程引导设计实用
- 实验充分度: ⭐⭐⭐⭐ 在卡牌游戏和具身任务上验证,thought collapse分析详尽
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,collapse现象的可视化分析有说服力
- 价值: ⭐⭐⭐⭐⭐ 对VLM agent RL训练的关键问题提出了第一个系统性解决方案