GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training¶

会议: ICCV 2025
arXiv: 2503.08525
代码: 无（未提及）
领域: 多模态VLM / Agent / 强化学习
关键词: VLM agent, thought collapse, RLVR, chain-of-thought, 过程引导, GUI agent

一句话总结¶

发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"（thought collapse）——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理，无需人工标注，LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。

背景与动机¶

RLVR（Reinforcement Learning with Verifiable Rewards）在LLM中成功scale up了CoT推理能力（如DeepSeek-R1），但将其应用于VLM agent的视觉环境推理时效果不佳。核心问题在于：VLM agent需要同时进行视觉理解→思维推理→动作决策，但仅基于最终动作结果的奖励信号（outcome-based reward）无法有效激励中间的思维推理过程。

核心问题¶

为什么RLVR在VLM agent训练中失效？如何在不需要密集人工标注的情况下，引导VLM agent学会有意义的思维推理？

方法详解¶

整体框架¶

GTR在标准RLVR的基础上增加了一个自动化的思维纠正器（corrector），在每个RL训练步中评估agent的推理质量并提供修正信号，使RL能同时优化推理过程和动作输出。

关键设计¶

Thought Collapse的发现与分析：核心发现——当VLM agent仅用outcome reward做RL时，模型的思维（CoT reasoning）会快速"坍塌"，表现为：(a) 推理内容多样性急剧下降（所有输入产生几乎相同的思维模板）；(b) 推理与当前状态无关（不看图就生成固定reasoning）；(c) 推理不完整导致无效动作。这是因为outcome reward的稀疏性和延迟性使得模型走捷径——直接记忆"哪些动作模式容易得到奖励"而放弃真正的推理。
自动纠正器（Automated Corrector）：在每个RL步，纠正器评估agent当前的思维推理质量，检查推理是否：(a) 与当前视觉输入相关；(b) 逻辑上连贯；(c) 支持最终动作决策。如果不满足，纠正器生成修正后的推理作为引导信号。关键创新在于纠正器是自动化的、不需要人工per-step标注——它利用更强的模型（或规则）来评估推理质量。
Guided Thought Reinforcement：将纠正器的引导信号融入RL训练中，既用outcome reward优化动作，又用process guidance优化推理过程。这使得模型同时学会"怎么想"和"怎么做"，避免思维坍塌。

损失函数 / 训练策略¶

基于RLVR框架，额外加入process reward/guidance信号。在24点纸牌游戏和ALFWorld具身任务上训练和评估。

实验关键数据¶

基于LLaVA-7b（很小的模型），GTR在多种视觉环境中任务成功率提升3-5倍
超越了显著更大的SoTA模型（以更小的模型尺寸）
在24点纸牌游戏和ALFWorld具身任务上均有效
Thought collapse定量分析：无GTR时推理多样性在训练早期即降至接近零

消融实验要点¶

仅outcome reward → thought collapse，任务成功率极低
加入process guidance → 推理多样性保持，成功率大幅提升
自动纠正器 vs 人工标注：自动化方案可扩展且效果相当
推理质量与最终动作质量高度正相关——好的推理是好动作的前提

亮点¶

"Thought Collapse"概念是重要贡献：首次系统定义和分析了VLM agent RL训练中的推理退化现象
Process guidance的必要性：证明了RLVR在VLM agent中仅靠outcome reward不够——这对整个agent RL社区有指导意义
自动纠正器的可扩展性：不需要密集人工标注，使得方法可以规模化应用
小模型大性能：LLaVA-7b通过GTR训练后超越了显著更大的models——证明训练方法比模型大小更重要
后续CVPR2026的GTR-Turbo进一步验证了框架的有效性和持续发展

局限性 / 可改进方向¶

自动纠正器的质量依赖于底层评估能力
仅在纸牌游戏和ALFWorld上验证，真实世界GUI agent场景未测试
纠正器增加了训练时的计算开销
从thought collapse到正常推理的recovery过程可能需要更深入研究

与相关工作的对比¶

vs. DeepSeek-R1：R1证明RLVR可以scale up LLM的CoT；GTR发现RLVR直接用于VLM agent会thought collapse，需要process guidance
vs. LLaVA-CoT：LLaVA-CoT通过数据构建让VLM学会结构化推理（训练数据层面）；GTR通过RL训练策略让VLM学会推理（训练方法层面）——互补
vs. o1/R1 for vision：GTR可以看作是"将R1的成功扩展到视觉agent"的首个系统尝试

启发与关联¶

Thought collapse现象可能在其他RL-for-generation场景中也存在（如RL-based图像生成优化）
Process guidance的思路与LLaVA-CoT的结构化推理训练形成互补——一个是数据驱动，一个是RL驱动
与Scaling Laws for NMM结合：如果NMM可以从零学习视觉，那么GTR可能帮助NMM从零学习视觉推理

评分¶

新颖性: ⭐⭐⭐⭐⭐ "Thought Collapse"的发现是重要认知贡献，GTR的自动纠正器+过程引导设计实用
实验充分度: ⭐⭐⭐⭐ 在卡牌游戏和具身任务上验证，thought collapse分析详尽
写作质量: ⭐⭐⭐⭐ 问题定义清晰，collapse现象的可视化分析有说服力
价值: ⭐⭐⭐⭐⭐ 对VLM agent RL训练的关键问题提出了第一个系统性解决方案