🦾 LLM Agent¶

📹 ICCV2025 · 共 1 篇

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training: 发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"（thought collapse）——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理，无需人工标注，LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。