跳转至

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

会议: ICCV 2025
arXiv: 2503.08525
代码: 无(未提及)
领域: 多模态VLM / Agent / 强化学习
关键词: VLM agent, thought collapse, RLVR, chain-of-thought, 过程引导, GUI agent

一句话总结

发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"(thought collapse)——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理,无需人工标注,LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。

背景与动机

RLVR(Reinforcement Learning with Verifiable Rewards)在LLM中成功scale up了CoT推理能力(如DeepSeek-R1),但将其应用于VLM agent的视觉环境推理时效果不佳。核心问题在于:VLM agent需要同时进行视觉理解→思维推理→动作决策,但仅基于最终动作结果的奖励信号(outcome-based reward)无法有效激励中间的思维推理过程。

核心问题

为什么RLVR在VLM agent训练中失效?如何在不需要密集人工标注的情况下,引导VLM agent学会有意义的思维推理?

方法详解

整体框架

GTR在标准RLVR的基础上增加了一个自动化的思维纠正器(corrector),在每个RL训练步中评估agent的推理质量并提供修正信号,使RL能同时优化推理过程和动作输出。

关键设计

  1. Thought Collapse的发现与分析:核心发现——当VLM agent仅用outcome reward做RL时,模型的思维(CoT reasoning)会快速"坍塌",表现为:(a) 推理内容多样性急剧下降(所有输入产生几乎相同的思维模板);(b) 推理与当前状态无关(不看图就生成固定reasoning);(c) 推理不完整导致无效动作。这是因为outcome reward的稀疏性和延迟性使得模型走捷径——直接记忆"哪些动作模式容易得到奖励"而放弃真正的推理。

  2. 自动纠正器(Automated Corrector):在每个RL步,纠正器评估agent当前的思维推理质量,检查推理是否:(a) 与当前视觉输入相关;(b) 逻辑上连贯;(c) 支持最终动作决策。如果不满足,纠正器生成修正后的推理作为引导信号。关键创新在于纠正器是自动化的、不需要人工per-step标注——它利用更强的模型(或规则)来评估推理质量。

  3. Guided Thought Reinforcement:将纠正器的引导信号融入RL训练中,既用outcome reward优化动作,又用process guidance优化推理过程。这使得模型同时学会"怎么想"和"怎么做",避免思维坍塌。

损失函数 / 训练策略

基于RLVR框架,额外加入process reward/guidance信号。在24点纸牌游戏和ALFWorld具身任务上训练和评估。

实验关键数据

  • 基于LLaVA-7b(很小的模型),GTR在多种视觉环境中任务成功率提升3-5倍
  • 超越了显著更大的SoTA模型(以更小的模型尺寸)
  • 在24点纸牌游戏和ALFWorld具身任务上均有效
  • Thought collapse定量分析:无GTR时推理多样性在训练早期即降至接近零

消融实验要点

  • 仅outcome reward → thought collapse,任务成功率极低
  • 加入process guidance → 推理多样性保持,成功率大幅提升
  • 自动纠正器 vs 人工标注:自动化方案可扩展且效果相当
  • 推理质量与最终动作质量高度正相关——好的推理是好动作的前提

亮点

  • "Thought Collapse"概念是重要贡献:首次系统定义和分析了VLM agent RL训练中的推理退化现象
  • Process guidance的必要性:证明了RLVR在VLM agent中仅靠outcome reward不够——这对整个agent RL社区有指导意义
  • 自动纠正器的可扩展性:不需要密集人工标注,使得方法可以规模化应用
  • 小模型大性能:LLaVA-7b通过GTR训练后超越了显著更大的models——证明训练方法比模型大小更重要
  • 后续CVPR2026的GTR-Turbo进一步验证了框架的有效性和持续发展

局限性 / 可改进方向

  • 自动纠正器的质量依赖于底层评估能力
  • 仅在纸牌游戏和ALFWorld上验证,真实世界GUI agent场景未测试
  • 纠正器增加了训练时的计算开销
  • 从thought collapse到正常推理的recovery过程可能需要更深入研究

与相关工作的对比

  • vs. DeepSeek-R1:R1证明RLVR可以scale up LLM的CoT;GTR发现RLVR直接用于VLM agent会thought collapse,需要process guidance
  • vs. LLaVA-CoT:LLaVA-CoT通过数据构建让VLM学会结构化推理(训练数据层面);GTR通过RL训练策略让VLM学会推理(训练方法层面)——互补
  • vs. o1/R1 for vision:GTR可以看作是"将R1的成功扩展到视觉agent"的首个系统尝试

启发与关联

  • Thought collapse现象可能在其他RL-for-generation场景中也存在(如RL-based图像生成优化)
  • Process guidance的思路与LLaVA-CoT的结构化推理训练形成互补——一个是数据驱动,一个是RL驱动
  • 与Scaling Laws for NMM结合:如果NMM可以从零学习视觉,那么GTR可能帮助NMM从零学习视觉推理

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "Thought Collapse"的发现是重要认知贡献,GTR的自动纠正器+过程引导设计实用
  • 实验充分度: ⭐⭐⭐⭐ 在卡牌游戏和具身任务上验证,thought collapse分析详尽
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,collapse现象的可视化分析有说服力
  • 价值: ⭐⭐⭐⭐⭐ 对VLM agent RL训练的关键问题提出了第一个系统性解决方案