跳转至

🎮 强化学习

🎞️ ECCV2024 · 共 4

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale

提出AdaGlimpse,利用Soft Actor-Critic强化学习从连续动作空间中选择任意位置和尺度的glimpse,结合弹性位置编码的ViT编码器实现多任务(重建/分类/分割)的主动视觉探索,以仅6%像素超越了使用18%像素的SOTA方法。

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

提出 Octopus,一个具身视觉-语言编程模型,通过生成可执行代码来连接高层规划与底层操控,并引入 Reinforcement Learning with Environmental Feedback (RLEF) 训练方案来提升决策质量。

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

Octopus 是一个具身视觉-语言编程模型,通过将 VLM 与可执行代码生成相结合,利用 GPT-4 收集训练数据并引入 RLEF(环境反馈强化学习)进行微调,在三个不同模拟器(OmniGibson、Minecraft、GTA-V)中实现了端到端的视觉感知→计划→代码生成→执行闭环。

Visual Grounding for Object-Level Generalization in Reinforcement Learning

利用视觉语言模型 (MineCLIP) 的 visual grounding 能力生成目标物体的 confidence map,通过奖励设计和任务表征两条路径将 VLM 知识迁移到强化学习中,实现对未见物体和指令的零样本泛化。