A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation¶

会议: ICCV 2025
arXiv: 2504.12636
代码: https://a-embodied.github.io/A0/
领域: 智能体
关键词: 机器人操作, 空间可供性, 分层模型, 扩散模型, 跨平台泛化

一句话总结¶

提出 A₀，一个可供性感知的分层扩散模型，通过将操作任务分解为高层空间可供性理解（预测接触点和轨迹）和低层动作执行，在100万接触点数据上预训练后仅需少量任务数据微调即可跨平台(Franka/Kinova/Realman/Dobot)部署，在擦白板等复杂轨迹任务中成功率达45%。

研究背景与动机¶

领域现状：机器人操作方法分为模块化方法（利用视觉基础模型）和端到端VLA方法（直接生成动作）。

现有痛点：模块化方法缺乏对物体空间可供性的深入理解；端到端方法不理解空间位置就直接生成动作，在复杂操作（如擦白板、堆叠物品）中表现不佳。

核心 idea：提出体态无关的可供性表示(Embodiment-Agnostic Affordance Representation)——以物体为中心预测接触点和接触后轨迹的2D waypoints，使方法与机器人平台解耦。

方法详解¶

关键设计¶

体态无关可供性表示: 统一来自机器人数据、手-物交互(HOI)数据和自定义数据的可供性信息为 \((I, L, C, T)\) 格式——图像、语言指令、接触点、轨迹waypoints
A₀扩散模型: 基于DiT架构，输入噪声waypoints和扩散时间步，通过交叉注意力注入SigLiP视觉特征和Qwen2.5-7B文本特征。引入Position Offset Attention提取帧间运动信息
两阶段训练:
- 预训练：在100万PixMo-One-Point数据上学习通用物体定位能力
- 微调：在标注轨迹数据上学习动态操作

损失函数¶

预训练: \(\mathcal{L}_p = \text{MSE}(x_t^0, f_\theta(k, x_t^k, I_t, \ell))\)；微调: \(\mathcal{L}_s = \text{MSE}(x_{t:t+T}^0, f_\theta(k, x_{t:t+T}^k, I_{t-1:t}, \ell))\)

实验关键数据¶

平台	A₀成功率	最强基线	说明
Franka	62.50%	55.0%(OpenVLA)	平均8个任务
Kinova	53.75%	42.5%	跨平台泛化
Wipe Board	45%	~20%	轨迹跟随任务

关键发现¶

预训练接触点定位能力显著提升微调后的操作性能
2D waypoint表示天然跨平台，仅需2D→3D投影+抓取采样即可部署到不同机器人
在轨迹跟随任务中优势最大，因为传统方法缺乏对后接触轨迹的建模

预训练数据规模¶

数据来源	接触点数量	用途
PixMo-One-Point	1M	物体定位预训练
HOI数据	50K	手-物交互
机器人数据	20K	操作任务

跨平台部署结果¶

平台	任务数	平均成功率	部署方式
Franka	8	62.5%	直接部署
Kinova	6	53.8%	直接部署
Realman	4	48.5%	适配后部署
Dobot	3	45.0%	适配后部署

亮点与洞察¶

"体态无关"设计非常实用：预测物体上的2D点和轨迹，与机器人的具体构型无关，通过深度反投影和抓取采样器适配到任意平台
大规模接触点预训练的思路值得借鉴：用廉价的点标注数据建立强大的空间定位先验

局限与展望¶

依赖外部抓取采样器获取精确抓取姿态，采样器失败时无法执行任务。
2D到3D的深度反投影受深度估计精度限制，在透明或反光物体上可能失败。
擦白板等复杂轨迹任务的成功率45%仍有很大提升空间。
预训练用的PixMo-One-Point数据主要是静态定位，动态轨迹数据仍较稀缺。
2D waypoint表示无法处理需要精确力控制的任务（如组装）。
未探索多步操作规划和长期任务执行。
Position Offset Attention的计算开销未详细分析。

评分¶

新颖性: ⭐⭐⭐⭐ 可供性分层+体态无关表示设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 4个机器人平台+多种任务
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐⭐ 对实际机器人部署有直接意义