🦾 LLM Agent¶
📹 ICCV2025 · 共 1 篇
- GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
-
发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"(thought collapse)——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理,无需人工标注,LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。