2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos¶

会议: ICCV 2025
arXiv: 2503.09320
代码: https://sites.google.com/view/2handedafforder
领域: 分割 / 机器人操作 / Affordance
关键词: bimanual affordance, affordance segmentation, VLM, hand-object interaction, egocentric video

一句话总结¶

本文提出从人类活动视频中自动提取精确的双手可操作区域(affordance)数据集 2HANDS，并训练基于 VLM 的 2HandedAfforder 模型，实现根据文本提示预测双手抓握的精确物体区域分割，在新提出的 ActAffordance 基准上显著优于现有方法。

研究背景与动机¶

领域现状：Affordance grounding（可操作区域识别）是机器人操作的关键能力——机器人需要知道物体的哪些区域可以用于特定任务（如倒水时应抓住瓶身什么位置）。现有方法通常依赖人工标注的数据集，标注质量与物体部件分割相似，缺乏动作导向的精确性。

现有痛点：(a) 现有 affordance 数据集（IIT-AFF、AGD20K 等）标注不够精确，往往退化为粗糙的物体部件分割；(b) 多数方法不考虑任务上下文（task-agnostic），只预测通用的"热点"区域；(c) 完全忽视双手协作交互（bimanual affordance）这一重要场景。

核心矛盾：手与物体交互时，手本身会遮挡关键的 affordance 区域，导致直接从交互图像中提取精确接触区域非常困难。

本文目标 (a) 如何从视频中自动提取精确的、任务导向的双手 affordance 分割 mask；(b) 如何训练一个能根据文本提示预测左右手分别交互区域的模型。

切入角度：利用视频级别的手部修复（hand inpainting）技术，先"去掉"遮挡手部获得完整物体视图，再通过 mask 补全得到手与物体接触的精确区域。

核心 idea：通过视频手部修复+mask补全自动提取精确 affordance mask，结合 VLM 实现文本驱动的双手 affordance 预测。

方法详解¶

整体框架¶

系统分两个阶段：(1) 数据提取——从 EPIC-KITCHENS 自我中心视频中，利用手部修复和 mask 补全自动生成 278K 张带标注的 affordance 数据（2HANDS 数据集）；(2) 模型训练——基于 VLM 的 2HandedAfforder 网络，输入图像和任务文本提示，输出左右手的 affordance 分割 mask 以及双手/单手分类。

关键设计¶

Affordance 提取流水线:
- 功能：从人类活动视频中自动提取物体上的精确 affordance 区域
- 核心思路：(a) 使用 VISOR 标注获取稀疏手-物体 mask，通过视频 mask 传播网络获得稠密全序列 mask；(b) 使用视频手部修复模型 VIDM 将手部区域修复为完整物体（利用 4 帧作为输入，未遮挡帧可提供线索）；(c) 使用 SAM2 将原始物体 mask 传播到修复图像上获得完整物体 mask；(d) 最终 affordance 区域 = 完整物体 mask ∩ 手部 mask
- 设计动机：手遮挡了关键交互区域，通过修复+补全巧妙绕过遮挡问题，获得比人工标注更精确的 affordance 区域
- 额外优势：使用视频中任务的叙述文本（narration）作为 affordance 类别标签，自然获得 73 类 affordance 和 163 类物体
VLM-based 2HandedAfforder 网络:
- 功能：根据文本提示预测图像中的双手 affordance mask
- 核心思路：输入文本 prompt（如"pour tea from kettle"）和图像，VLM（LLaVa-13b）生成语言 token 和 [SEG] token；SAM 图像编码器提取视觉特征；两个 SAM-style mask decoder 分别生成左手和右手 affordance mask
- 设计动机：VLM 擅长推理但不擅长像素级任务，SAM 编码器提供强视觉特征，二者互补；双解码器设计自然处理双手场景
双手分类头（Taxonomy Classifier）:
- 功能：预测交互是单手左/单手右/双手操作
- 核心思路：从左手 mask decoder 的输出 token 通过 MLP 预测三分类，测试时根据分类结果决定使用哪个 mask 输出
- 设计动机：避免在单手任务中产生冗余的另一手 mask 预测

损失函数 / 训练策略¶

Mask 预测使用 Dice Loss + Focal Cross-Entropy Loss 组合
分类预测使用标准 Cross-Entropy Loss
VLM 使用 LoRA 微调（保留预训练知识），SAM 图像编码器冻结
单手任务时对应手的 mask loss 权重设为 0

实验关键数据¶

主实验¶

提出 ActAffordance 基准，包含 400 个活动、由人类标注的多模态 affordance mask。

方法	IoU ↑	Precision ↑	Dir. HD ↓	mAP ↑
2HandedAfforder	0.058	0.130	202	0.104
LISA	0.044	0.050	255	0.047
2HAff-CLIP	0.026	0.064	292	0.059
AffordanceLLM	0.012	0.013	225	0.012

Cropped 版本（消除物体定位影响）：

方法	IoU ↑	Precision ↑	Dir. HD ↓	mAP ↑
2HandedAfforder	0.086	0.269	100	0.240
3DOI	0.082	0.224	109	0.180
LISA	0.082	0.122	130	0.116
AffordanceLLM	0.076	0.112	76	0.103

消融实验¶

配置	说明
AffExtract (数据提取)	Precision=0.420, IoU=0.185，验证提取质量
2HAff vs 2HAff-CLIP	VLM 版本比 CLIP 版本精度高 2x，说明推理能力关键
Ego4D 泛化测试	未用 Ego4D 训练，但表现与 EPIC 相当甚至更好

关键发现¶

推理能力至关重要：2HAff (VLM) 比 2HAff-CLIP 精度高约 2 倍，说明 VLM 的语义推理远优于 CLIP 特征匹配
数据提取质量与人类标注对齐度合理（Precision 0.42），但 IoU 低（0.185）反映 affordance 的多模态特性——同一任务有多种合理交互区域
机器人演示证实预测区域可直接用于抓取规划，比通用物体分割有效

亮点与洞察¶

手部修复获取 affordance：利用视频中的手部修复+mask补全绕过手遮挡问题，思路新颖且通用——任何包含手-物体交互的视频都可以作为数据源
Narration 作为自然类别标签：避免了预定义固定类别体系，让 affordance 类别随任务自然涌现，覆盖面更广
双解码器架构：简洁地将双手问题分解为两个并行的 mask 预测，加上分类头选择，设计优雅
可迁移到其他机器人任务：affordance 区域可直接转换为 6DOF 抓取点云，已在 Tiago++ 真机上验证

局限与展望¶

IoU 指标整体偏低（所有方法<0.1），任务本身极具挑战性
数据源限于厨房场景（EPIC-KITCHENS），泛化到其他环境需更多数据
对需要精准力控的任务（如拧瓶盖），仅靠区域分割还不够
未考虑 affordance 的多模态性——同一任务可能有多个合理抓握位置，模型只预测一种

评分¶

新颖性: ⭐⭐⭐⭐ 手部修复提取 affordance 思路新颖，双手 affordance 首创
实验充分度: ⭐⭐⭐⭐ 新基准+多基线对比+消融+真机验证，全面
写作质量: ⭐⭐⭐⭐ 问题定义清晰，流水线可视化好
价值: ⭐⭐⭐⭐ 对机器人操作领域有直接应用价值