Affostruction: 3D Affordance Grounding with Generative Reconstruction¶

会议: CVPR 2026
arXiv: 2601.09211
代码: 项目页面
领域: 三维视觉 / 机器人感知
关键词: 3D功能可供性, 生成式重建, 稀疏体素融合, Flow Matching, 主动视角选择

一句话总结¶

提出Affostruction，通过稀疏体素融合的生成式重建完成物体几何（包括未观测区域），并用Flow Matching建模功能可供性的多模态分布，在完整3D形状上实现功能区域定位，重建IoU提升54.8%、affordance aIoU提升40.4%。

研究背景与动机¶

机器人操作需要理解物体的功能可供性——"哪里可以抓握"。但现实中机器人只能从有限视角的RGBD相机观测物体，存在大量遮挡。现有方法只能在可见表面预测affordance，而机器人需要在未观测区域（如杯子背面的手柄）也能推理功能属性。这要求同时完成几何补全和affordance预测。

核心洞察：TRELLIS等3D生成模型有强大的几何先验但不支持深度输入和功能预测；affordance方法只在完整点云或可见表面上工作。Affostruction用稀疏体素融合扩展TRELLIS支持多视角RGBD输入，并新增Flow-based affordance模块。

方法详解¶

整体框架¶

多视角RGBD → DINOv2提取特征+深度投影到3D → 稀疏体素融合 → Flow Transformer生成式重建完整结构 → 稀疏Flow Transformer生成affordance热力图(CLIP文本条件) → Affordance引导的主动视角选择 → 输出完整3D网格+affordance标注。

关键设计¶

稀疏体素融合条件化:
- 功能：将多视角RGBD特征聚合为常数复杂度的3D条件信号
- 核心思路：每个视角的DINOv2特征通过深度和相机参数投影到3D世界坐标，重叠体素平均、非重叠取并集，加3D正弦位置编码
- 设计动机：保持O(1)的token数量（不随视角数增长），使Flow Transformer能泛化处理1-8个视角
Flow-based Affordance定位:
- 功能：在重建几何上生成affordance热力图
- 核心思路：训练一个稀疏Flow Transformer从CLIP文本嵌入条件下去噪affordance logits，使用BCE+Dice的mask损失替代MSE
- 设计动机：affordance本质上是多模态的——同一查询可能对应多个有效交互区域（如"抓握"的多个位置），生成模型能捕获这种分布
Affordance驱动的主动视角选择:
- 功能：在有限视角预算下优先覆盖功能区域
- 核心思路：将affordance热力图渲染到候选视角的2D图像，选择热力图值之和最大的视角作为下一观测点
- 设计动机：一次额外视角即可实现2倍于顺序采样的改善

损失函数 / 训练策略¶

重建阶段：Rectified Flow的条件流匹配（CFM）损失
Affordance阶段：BCE+Dice的mask损失替代MSE（binary affordance更适合mask损失）
随机多视角训练（每次迭代随机1-8个视角），使模型适应可变输入

实验关键数据¶

3D重建（Toky4K）¶

方法	IoU↑	CD↓	是否用深度
TRELLIS	19.49	0.3694	✗
MCC	21.11	0.3299	✓
Affostruction	32.67	0.2427	✓

部分观测Affordance定位¶

方法	aIoU↑	aCD↓
MCC + Espresso-3D	4.74	0.1354
Affostruction	9.26	0.1044

主动视角选择¶

策略	1次额外视角aIoU	4次额外视角aIoU
顺序	4.7	9.1
随机	6.2	11.0
Affordance驱动	9.2	12.4

关键发现¶

随机多视角训练至关重要：单视角训练的模型给多视角输入时几乎无提升
BCE+Dice mask损失优于MSE用于affordance预测
生成式方法在aIoU上大幅超越判别式方法（19.1 vs 13.6），即使不微调编码器

亮点与洞察¶

首次将3D生成式重建与affordance预测统一到一个框架
稀疏体素融合实现了O(1)复杂度的多视角聚合
Flow Matching建模affordance的多模态分布是优雅的设计
主动视角选择形成"感知→重建→定位→选择"的闭环

局限与展望¶

严重遮挡下初始重建可能有误差，传播到affordance预测
初始affordance估计错误会误导主动视角选择
当前仅支持单物体场景，多物体需结合SAM3D
未在真实机器人上验证操作可行性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 生成式重建+affordance定位+主动视角的统一框架首创
实验充分度: ⭐⭐⭐⭐ 重建/affordance/主动视角均有定量评估，消融完整
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，方法模块化，失败案例分析诚实
价值: ⭐⭐⭐⭐⭐ 对机器人操作的affordance理解具有直接应用价值