🤖 机器人/具身智能¶

🎞️ ECCV2024 · 共 7 篇

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation: 提出 STAformer 架构和两个基于 affordance 的模块（环境 affordance 数据库 + 交互热点），将第一人称视频中的短期物体交互预测（STA）在 Ego4D 和 EPIC-Kitchens 上提升了 30-45% 的相对性能。
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control: 提出 DISCO，通过可微分场景语义表征（包含物体和 affordance）实现动态场景建模，结合全局-局部双层粗到细控制策略实现高效移动操作，在 ALFRED benchmark 的 unseen scenes 上以 +8.6% 成功率超越使用分步指令的 SOTA，且无需分步指令。
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control: 提出 DISCO 框架，通过可微分场景语义表示和双层粗-细动作控制，在 ALFRED 基准上实现具身导航与交互的显著性能提升（未见场景成功率超越 SOTA +8.6%，且无需逐步指令）。
Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos: 提出层次化神经骨骼（Hierarchical Neural Bones）框架，通过树状结构的骨骼系统以粗到细的方式分解物体运动，从随手拍摄的视频中重建可操控的高质量 3D 模型。
Prioritized Semantic Learning for Zero-Shot Instance Navigation: 提出 Prioritized Semantic Learning (PSL) 方法，通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案，显著提升导航智能体的语义感知能力，在零样本 ObjectNav 上超越 SOTA 66%（SR），并提出了更具挑战性的 InstanceNav 任务。
See and Think: Embodied Agent in Virtual Environment: 提出 STEVE，一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体，通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库，在科技树解锁和方块搜索任务上大幅超越现有方法。
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization: 提出 SemGrasp，通过层次化 VQ-VAE 将抓取姿态离散化为三个语义对齐的 token（方向/方式/精修），并微调多模态大语言模型实现基于语言指令的语义抓取生成。