2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos¶
会议: ICCV 2025
arXiv: 2503.09320
代码: https://sites.google.com/view/2handedafforder
领域: 分割 / 机器人操作 / Affordance
关键词: bimanual affordance, affordance segmentation, VLM, hand-object interaction, egocentric video
一句话总结¶
本文提出从人类活动视频中自动提取精确的双手可操作区域(affordance)数据集 2HANDS,并训练基于 VLM 的 2HandedAfforder 模型,实现根据文本提示预测双手抓握的精确物体区域分割,在新提出的 ActAffordance 基准上显著优于现有方法。
研究背景与动机¶
领域现状:Affordance grounding(可操作区域识别)是机器人操作的关键能力——机器人需要知道物体的哪些区域可以用于特定任务(如倒水时应抓住瓶身什么位置)。现有方法通常依赖人工标注的数据集,标注质量与物体部件分割相似,缺乏动作导向的精确性。
现有痛点:(a) 现有 affordance 数据集(IIT-AFF、AGD20K 等)标注不够精确,往往退化为粗糙的物体部件分割;(b) 多数方法不考虑任务上下文(task-agnostic),只预测通用的"热点"区域;(c) 完全忽视双手协作交互(bimanual affordance)这一重要场景。
核心矛盾:手与物体交互时,手本身会遮挡关键的 affordance 区域,导致直接从交互图像中提取精确接触区域非常困难。
本文目标 (a) 如何从视频中自动提取精确的、任务导向的双手 affordance 分割 mask;(b) 如何训练一个能根据文本提示预测左右手分别交互区域的模型。
切入角度:利用视频级别的手部修复(hand inpainting)技术,先"去掉"遮挡手部获得完整物体视图,再通过 mask 补全得到手与物体接触的精确区域。
核心 idea:通过视频手部修复+mask补全自动提取精确 affordance mask,结合 VLM 实现文本驱动的双手 affordance 预测。
方法详解¶
整体框架¶
系统分两个阶段:(1) 数据提取——从 EPIC-KITCHENS 自我中心视频中,利用手部修复和 mask 补全自动生成 278K 张带标注的 affordance 数据(2HANDS 数据集);(2) 模型训练——基于 VLM 的 2HandedAfforder 网络,输入图像和任务文本提示,输出左右手的 affordance 分割 mask 以及双手/单手分类。
关键设计¶
-
Affordance 提取流水线:
- 功能:从人类活动视频中自动提取物体上的精确 affordance 区域
- 核心思路:(a) 使用 VISOR 标注获取稀疏手-物体 mask,通过视频 mask 传播网络获得稠密全序列 mask;(b) 使用视频手部修复模型 VIDM 将手部区域修复为完整物体(利用 4 帧作为输入,未遮挡帧可提供线索);(c) 使用 SAM2 将原始物体 mask 传播到修复图像上获得完整物体 mask;(d) 最终 affordance 区域 = 完整物体 mask ∩ 手部 mask
- 设计动机:手遮挡了关键交互区域,通过修复+补全巧妙绕过遮挡问题,获得比人工标注更精确的 affordance 区域
- 额外优势:使用视频中任务的叙述文本(narration)作为 affordance 类别标签,自然获得 73 类 affordance 和 163 类物体
-
VLM-based 2HandedAfforder 网络:
- 功能:根据文本提示预测图像中的双手 affordance mask
- 核心思路:输入文本 prompt(如"pour tea from kettle")和图像,VLM(LLaVa-13b)生成语言 token 和 [SEG] token;SAM 图像编码器提取视觉特征;两个 SAM-style mask decoder 分别生成左手和右手 affordance mask
- 设计动机:VLM 擅长推理但不擅长像素级任务,SAM 编码器提供强视觉特征,二者互补;双解码器设计自然处理双手场景
-
双手分类头(Taxonomy Classifier):
- 功能:预测交互是单手左/单手右/双手操作
- 核心思路:从左手 mask decoder 的输出 token 通过 MLP 预测三分类,测试时根据分类结果决定使用哪个 mask 输出
- 设计动机:避免在单手任务中产生冗余的另一手 mask 预测
损失函数 / 训练策略¶
- Mask 预测使用 Dice Loss + Focal Cross-Entropy Loss 组合
- 分类预测使用标准 Cross-Entropy Loss
- VLM 使用 LoRA 微调(保留预训练知识),SAM 图像编码器冻结
- 单手任务时对应手的 mask loss 权重设为 0
实验关键数据¶
主实验¶
提出 ActAffordance 基准,包含 400 个活动、由人类标注的多模态 affordance mask。
| 方法 | IoU ↑ | Precision ↑ | Dir. HD ↓ | mAP ↑ |
|---|---|---|---|---|
| 2HandedAfforder | 0.058 | 0.130 | 202 | 0.104 |
| LISA | 0.044 | 0.050 | 255 | 0.047 |
| 2HAff-CLIP | 0.026 | 0.064 | 292 | 0.059 |
| AffordanceLLM | 0.012 | 0.013 | 225 | 0.012 |
Cropped 版本(消除物体定位影响):
| 方法 | IoU ↑ | Precision ↑ | Dir. HD ↓ | mAP ↑ |
|---|---|---|---|---|
| 2HandedAfforder | 0.086 | 0.269 | 100 | 0.240 |
| 3DOI | 0.082 | 0.224 | 109 | 0.180 |
| LISA | 0.082 | 0.122 | 130 | 0.116 |
| AffordanceLLM | 0.076 | 0.112 | 76 | 0.103 |
消融实验¶
| 配置 | 说明 |
|---|---|
| AffExtract (数据提取) | Precision=0.420, IoU=0.185,验证提取质量 |
| 2HAff vs 2HAff-CLIP | VLM 版本比 CLIP 版本精度高 2x,说明推理能力关键 |
| Ego4D 泛化测试 | 未用 Ego4D 训练,但表现与 EPIC 相当甚至更好 |
关键发现¶
- 推理能力至关重要:2HAff (VLM) 比 2HAff-CLIP 精度高约 2 倍,说明 VLM 的语义推理远优于 CLIP 特征匹配
- 数据提取质量与人类标注对齐度合理(Precision 0.42),但 IoU 低(0.185)反映 affordance 的多模态特性——同一任务有多种合理交互区域
- 机器人演示证实预测区域可直接用于抓取规划,比通用物体分割有效
亮点与洞察¶
- 手部修复获取 affordance:利用视频中的手部修复+mask补全绕过手遮挡问题,思路新颖且通用——任何包含手-物体交互的视频都可以作为数据源
- Narration 作为自然类别标签:避免了预定义固定类别体系,让 affordance 类别随任务自然涌现,覆盖面更广
- 双解码器架构:简洁地将双手问题分解为两个并行的 mask 预测,加上分类头选择,设计优雅
- 可迁移到其他机器人任务:affordance 区域可直接转换为 6DOF 抓取点云,已在 Tiago++ 真机上验证
局限与展望¶
- IoU 指标整体偏低(所有方法<0.1),任务本身极具挑战性
- 数据源限于厨房场景(EPIC-KITCHENS),泛化到其他环境需更多数据
- 对需要精准力控的任务(如拧瓶盖),仅靠区域分割还不够
- 未考虑 affordance 的多模态性——同一任务可能有多个合理抓握位置,模型只预测一种
相关工作与启发¶
- vs LISA: LISA 做全物体推理分割,不考虑 affordance 精确区域,本文通过专门的 affordance 数据训练获得更精确的区域预测
- vs VRB/ACP: 这些方法预测 task-agnostic 热点/热力图,本文通过文本 prompt 实现 task-aware 精确 mask
- vs AffordanceLLM: 虽然 AffLLM 也用 LLM,但训练数据(AGD20K)标注质量不如自动提取的 2HANDS 精确
评分¶
- 新颖性: ⭐⭐⭐⭐ 手部修复提取 affordance 思路新颖,双手 affordance 首创
- 实验充分度: ⭐⭐⭐⭐ 新基准+多基线对比+消融+真机验证,全面
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,流水线可视化好
- 价值: ⭐⭐⭐⭐ 对机器人操作领域有直接应用价值
相关论文¶
- [ICCV 2025] Learning Precise Affordances from Egocentric Videos for Robotic Manipulation
- [ICCV 2025] ReferEverything: Towards Segmenting Everything We Can Speak of in Videos
- [ICCV 2025] Open-World Skill Discovery from Unsegmented Demonstration Videos
- [ICCV 2025] UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis
- [ICCV 2025] Temporal Rate Reduction Clustering for Human Motion Segmentation