跳转至

🤖 机器人/具身智能

🎞️ ECCV2024 · 共 7

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation

提出 STAformer 架构和两个基于 affordance 的模块(环境 affordance 数据库 + 交互热点),将第一人称视频中的短期物体交互预测(STA)在 Ego4D 和 EPIC-Kitchens 上提升了 30-45% 的相对性能。

DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control

提出 DISCO,通过可微分场景语义表征(包含物体和 affordance)实现动态场景建模,结合全局-局部双层粗到细控制策略实现高效移动操作,在 ALFRED benchmark 的 unseen scenes 上以 +8.6% 成功率超越使用分步指令的 SOTA,且无需分步指令。

DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control

提出 DISCO 框架,通过可微分场景语义表示和双层粗-细动作控制,在 ALFRED 基准上实现具身导航与交互的显著性能提升(未见场景成功率超越 SOTA +8.6%,且无需逐步指令)。

Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos

提出层次化神经骨骼(Hierarchical Neural Bones)框架,通过树状结构的骨骼系统以粗到细的方式分解物体运动,从随手拍摄的视频中重建可操控的高质量 3D 模型。

Prioritized Semantic Learning for Zero-Shot Instance Navigation

提出 Prioritized Semantic Learning (PSL) 方法,通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案,显著提升导航智能体的语义感知能力,在零样本 ObjectNav 上超越 SOTA 66%(SR),并提出了更具挑战性的 InstanceNav 任务。

See and Think: Embodied Agent in Virtual Environment

提出 STEVE,一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体,通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库,在科技树解锁和方块搜索任务上大幅超越现有方法。

SemGrasp: Semantic Grasp Generation via Language Aligned Discretization

提出 SemGrasp,通过层次化 VQ-VAE 将抓取姿态离散化为三个语义对齐的 token(方向/方式/精修),并微调多模态大语言模型实现基于语言指令的语义抓取生成。