Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation¶
会议: CVPR 2026
arXiv: 2603.11984
代码: 无
领域: 机器人学 / 视觉运动策略
关键词: 单步动作生成, 扩散策略, 3D点云, 多模态动作分布, 训练时漂移
一句话总结¶
Ada3Drift 提出将扩散策略中的迭代精炼从推理时转移到训练时,通过训练时漂移场(吸引预测动作至专家模式+排斥其他生成样本)实现高保真单步(1 NFE)3D 视觉运动策略,在 Adroit、Meta-World、RoboTwin 和真实机器人任务上达到 SOTA,同时推理速度提升 10 倍。
研究背景与动机¶
-
领域现状:基于扩散模型的视觉运动策略(如 Diffusion Policy、DP3)通过迭代去噪有效捕获多模态动作分布,已成为机器人学习的主流范式。但迭代去噪需要 10-100 次函数评估(NFE),与实时机器人控制所需的 10-50 Hz 频率形成根本性矛盾。
-
现有痛点:近期基于流匹配(Flow Matching)和一致性模型的单步生成方法虽然解决了推理延迟问题,但其回归目标会收敛到目标场的条件期望,将不同动作模式平均为一个混合体。在图像生成中这导致模糊;但在机器人动作空间中,两种有效策略的平均可能产生物理上不可行的轨迹(如从左绕和从右绕的平均是直接撞上障碍物)。
-
核心矛盾:速度与保真度的权衡——去掉迭代精炼获得速度,但丢失了多模态动作分布的表达能力。模式平均在机器人中不仅是质量问题,更是安全问题。
-
本文目标 在保持单步推理效率的同时,恢复扩散策略通过迭代精炼达到的多模态保真度。同时需要适应机器人学习的特殊挑战:少样本数据(10-50条演示)、不同任务的动作几何差异大。
-
切入角度:机器人系统存在天然的计算预算不对称——训练在离线GPU上进行无延迟约束,推理必须满足严格实时要求。现有方法把精炼预算花在了错误的时间点。应该将所有精炼放在训练时,推理只需一步前向传播。
-
核心 idea:将迭代精炼的计算预算从推理时"搬运"到训练时——通过漂移场在训练中引导模型输出分布趋向专家演示模式,推理时仅需单步生成。
方法详解¶
整体框架¶
Ada3Drift 的输入是机器人本体状态和 3D 点云观测,输出是未来 \(H=16\) 步动作轨迹。整个系统由三部分组成:(1) 3D 观测编码器(PointNet)处理点云和本体状态产生全局条件向量;(2) 无时间步的 1D U-Net 动作生成器,从高斯噪声直接映射到动作轨迹(1次前向传播);(3) 训练时漂移场损失,通过吸引-排斥机制引导输出分布。推理时只执行生成器的前向传播(1 NFE)。
关键设计¶
-
训练时漂移场(Training-Time Drifting Field):
- 功能:在训练期间显式将模型输出分布引导向专家演示模式,避免模式平均
- 核心思路:给定一批模型预测 \(\{\mathbf{x}_i\}\) 和专家演示 \(\{\mathbf{y}_j^+\}\),通过双向亲和矩阵 \(A_{ij} = \sqrt{A_{ij}^{row} \cdot A_{ij}^{col}}\) 计算软分配。行归一化防止预测忽略远处模式,列归一化防止热门模式垄断所有预测。漂移场 \(V(\mathbf{x}_i) = \sum_j W_{ij}^+ \mathbf{y}_j^+ - \sum_k W_{ik}^- \mathbf{x}_k\) 包含两项力:吸引项将每个预测拉向最近的专家模式,排斥项将预测彼此推开以确保覆盖所有模式
- 设计动机:与流匹配的回归目标不同,漂移场提供了逐样本的精细位移向量,能在训练时完成迭代精炼的工作。双向归一化确保了均衡分配——这对少样本场景尤其重要
-
多尺度场聚合(Multi-Scale Field Aggregation):
- 功能:在多个空间尺度上捕获不同粒度的动作模式结构
- 核心思路:在多个温度 \(\{\tau_l\} = \{0.02, 0.05, 0.2\}\) 下分别计算漂移场并聚合:\(V_{total}(\mathbf{x}) = \sum_l V_{\tau_l}(\mathbf{x}) / \lambda_{\tau_l}\),其中 \(\lambda_{\tau_l}\) 对各场归一化到单位方差。所有样本预先归一化使得平均成对距离与 \(\sqrt{D}\) 成正比
- 设计动机:不同机器人任务的动作分布几何差异极大——抓取任务的模式可能仅差几毫米(需要小温度),而双臂协调任务的模式可能完全不同的臂配置(需要大温度)。固定温度只能捕获单一尺度结构。自归一化设计使同一温度集在不同动作幅度的任务间通用
-
Sigmoid调度的损失过渡(Sigmoid-Scheduled Loss Transition):
- 功能:在训练过程中自动从粗糙分布学习平滑过渡到模式锐化精炼
- 核心思路:损失函数为 \(\mathcal{L} = w_{drift}(e) \cdot \mathcal{L}_{drift} + w_{mse}(e) \cdot \|x - y^+\|^2\),权重通过 sigmoid 调度:\(w_{drift}(e) = \sigma((e - e_{mid})/(k \cdot E))\),交叉点 \(e_{mid} = 0.7E\),锐度 \(k=0.05\)。早期 MSE 主导,教模型动作分布的粗糙结构;后期漂移损失主导,锐化模式分离
- 设计动机:在少样本场景(仅10-50条演示)中,模型初始预测距离数据模式太远,漂移场的软分配无法产生有意义的梯度。70%处的晚交叉反映了关键发现:少样本下模型需要大部分训练来建立粗糙分布,之后漂移精炼才有效
损失函数 / 训练策略¶
训练损失结合 MSE 回归损失和漂移场损失,通过 sigmoid 调度动态加权。漂移损失使用 stop-gradient:\(\mathcal{L}_{drift} = \|\hat{\mathbf{x}} - \text{sg}(\hat{\mathbf{x}} + V_{total})\|^2\)。架构上移除了时间步嵌入(因为不需要多步去噪),简化了网络结构。使用 AdamW 优化器,学习率 \(10^{-4}\),batch size 128,单卡 RTX 4090D 训练。
实验关键数据¶
主实验¶
| 数据集 | 指标(成功率%) | Ada3Drift(1NFE) | DP3(10NFE) | MP1(1NFE) | FlowPolicy(1NFE) |
|---|---|---|---|---|---|
| Adroit Hammer | 成功率 | 90.3 | 88.7 | 84.3 | 77.0 |
| Adroit Door | 成功率 | 65.0 | 64.2 | 64.2 | 61.2 |
| Adroit Pen | 成功率 | 63.3 | 59.7 | 57.7 | 58.0 |
| Meta-World Easy | 成功率 | 86.7 | 85.5 | 85.8 | 84.3 |
| RoboTwin 平均 | 成功率 | 71.2 | 62.5 | 68.3 | 58.4 |
| 真实机器人 平均 | 成功率 | 79 | 68 | 69 | 57 |
推理速度:Ada3Drift 233.9 Hz (4.3ms/step),比 DP3 (18.7 Hz) 快 12.5 倍。
消融实验¶
| 配置 | Adroit 平均 | Meta-World 平均 | 总平均 | 说明 |
|---|---|---|---|---|
| DP3 (10 NFE) | 70.9 | 78.9 | 78.0 | 多步基线 |
| Naive Drifting (1 NFE) | 67.4 | 76.8 | 75.0 | 无自适应调度 |
| Ada3Drift (1 NFE) | 72.9 | 80.1 | 78.9 | 完整模型 |
关键发现¶
- Naive Drifting 反而退化:无 sigmoid 调度时,漂移损失在早期干扰基础重建目标,总平均下降3%。最大退化出现在 Pen(-4.9%)和 Very Hard(-9.7%)等高多模态任务
- 自适应漂移的两个组件缺一不可:多温度聚合捕获不同粒度的模式结构,sigmoid 调度延迟漂移优化直到基础策略稳定。添加自适应漂移后不仅恢复而且超越 DP3 基线
- 真实机器人上优势更大:Ada3Drift 在真实机器人上平均成功率79%,比 MP1(69%) 高10个百分点。FlowPolicy 在真实场景退化最严重(57%),说明模式平均的轨迹对真实世界扰动更不鲁棒
- 训练动态分析:Pen 任务(高度多模态,24 DOF)上,Ada3Drift 在后期训练阶段才与基线拉开差距,与 sigmoid 调度在70%处激活漂移损失一致
亮点与洞察¶
- 计算预算不对称的洞察:机器人系统训练离线、推理实时的结构性特征被精准利用——把迭代精炼的计算"搬运"到不受约束的训练阶段。这个思路对所有需要在推理时保持低延迟的生成式任务都有启发
- 吸引-排斥场设计:同时有吸引(向专家模式)和排斥(远离其他预测)两个力,类似物理中的库仑力场。这避免了所有预测collapse到同一个模式,是一个优雅的多模态保持机制
- 无时间步架构:移除传统扩散/流模型中的时间步嵌入,是单步生成的自然推论——既简化了架构又减少了参数。这个思路可迁移到其他固定步数的生成任务
局限与展望¶
- Meta-World Hard 表现不稳定:Ada3Drift 在该类别上逊于 MP1(58.7% vs 62.3%),作者归因于高动作空间方差下 sigmoid 调度的交叉点可能需要任务特定调优
- 温度选择固定:\(\{0.02, 0.05, 0.2\}\) 三个温度是手工设定的,未探索自适应温度选择机制
- 仅在少样本设置下验证:所有实验使用 10-50 条演示,未探索数据量增大后漂移场的效果变化
- Stack Blocks 真实任务成功率偏低:60%的成功率说明在需要极高精度的堆叠任务上仍有改进空间
相关工作与启发¶
- vs FlowPolicy/MP1: 这两种方法直接用流匹配/一致性模型实现单步生成,但继承了回归目标的模式平均问题。Ada3Drift 通过训练时漂移场显式解决了这个问题,尤其在多模态场景优势明显
- vs Diffusion Policy/DP3: 扩散策略通过多步去噪保持模式多样性,但推理太慢。Ada3Drift 证明了训练时精炼可以完全补偿推理时迭代的损失,以 1/10 的推理成本达到甚至超越其性能
- vs Deng et al. (图像生成漂移): 该工作首先在图像生成中提出训练时漂移,但其固定机制不适配机器人学习的少样本和多任务特性。Ada3Drift 的三项自适应设计(调度、多尺度、无时间步)是针对机器人场景的必要扩展
评分¶
- 新颖性: ⭐⭐⭐⭐ 计算预算搬运的思路新颖,但漂移场机制借鉴自图像生成
- 实验充分度: ⭐⭐⭐⭐⭐ 三个仿真平台+真实机器人实验,消融全面,训练动态分析深入
- 写作质量: ⭐⭐⭐⭐⭐ 问题抽象清晰,从观察到方案到验证一气呵成
- 价值: ⭐⭐⭐⭐ 对实时机器人控制有实际意义,但应用范围限于操作任务
相关论文¶
- [CVPR 2026] HyperMVP: Hyperbolic Multiview Pretraining for Robotic Manipulation
- [CVPR 2026] Foundry: Distilling 3D Foundation Models for the Edge
- [CVPR 2026] APC: Transferable and Efficient Adversarial Point Counterattack for Robust 3D Point Cloud Recognition
- [CVPR 2026] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
- [CVPR 2026] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface