跳转至

Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation

会议: CVPR 2026
arXiv: 2603.11984
代码: 无
领域: 机器人学 / 视觉运动策略
关键词: 单步动作生成, 扩散策略, 3D点云, 多模态动作分布, 训练时漂移

一句话总结

Ada3Drift 提出将扩散策略中的迭代精炼从推理时转移到训练时,通过训练时漂移场(吸引预测动作至专家模式+排斥其他生成样本)实现高保真单步(1 NFE)3D 视觉运动策略,在 Adroit、Meta-World、RoboTwin 和真实机器人任务上达到 SOTA,同时推理速度提升 10 倍。

研究背景与动机

  1. 领域现状:基于扩散模型的视觉运动策略(如 Diffusion Policy、DP3)通过迭代去噪有效捕获多模态动作分布,已成为机器人学习的主流范式。但迭代去噪需要 10-100 次函数评估(NFE),与实时机器人控制所需的 10-50 Hz 频率形成根本性矛盾。

  2. 现有痛点:近期基于流匹配(Flow Matching)和一致性模型的单步生成方法虽然解决了推理延迟问题,但其回归目标会收敛到目标场的条件期望,将不同动作模式平均为一个混合体。在图像生成中这导致模糊;但在机器人动作空间中,两种有效策略的平均可能产生物理上不可行的轨迹(如从左绕和从右绕的平均是直接撞上障碍物)。

  3. 核心矛盾:速度与保真度的权衡——去掉迭代精炼获得速度,但丢失了多模态动作分布的表达能力。模式平均在机器人中不仅是质量问题,更是安全问题。

  4. 本文目标 在保持单步推理效率的同时,恢复扩散策略通过迭代精炼达到的多模态保真度。同时需要适应机器人学习的特殊挑战:少样本数据(10-50条演示)、不同任务的动作几何差异大。

  5. 切入角度:机器人系统存在天然的计算预算不对称——训练在离线GPU上进行无延迟约束,推理必须满足严格实时要求。现有方法把精炼预算花在了错误的时间点。应该将所有精炼放在训练时,推理只需一步前向传播。

  6. 核心 idea:将迭代精炼的计算预算从推理时"搬运"到训练时——通过漂移场在训练中引导模型输出分布趋向专家演示模式,推理时仅需单步生成。

方法详解

整体框架

Ada3Drift 的输入是机器人本体状态和 3D 点云观测,输出是未来 \(H=16\) 步动作轨迹。整个系统由三部分组成:(1) 3D 观测编码器(PointNet)处理点云和本体状态产生全局条件向量;(2) 无时间步的 1D U-Net 动作生成器,从高斯噪声直接映射到动作轨迹(1次前向传播);(3) 训练时漂移场损失,通过吸引-排斥机制引导输出分布。推理时只执行生成器的前向传播(1 NFE)。

关键设计

  1. 训练时漂移场(Training-Time Drifting Field):

    • 功能:在训练期间显式将模型输出分布引导向专家演示模式,避免模式平均
    • 核心思路:给定一批模型预测 \(\{\mathbf{x}_i\}\) 和专家演示 \(\{\mathbf{y}_j^+\}\),通过双向亲和矩阵 \(A_{ij} = \sqrt{A_{ij}^{row} \cdot A_{ij}^{col}}\) 计算软分配。行归一化防止预测忽略远处模式,列归一化防止热门模式垄断所有预测。漂移场 \(V(\mathbf{x}_i) = \sum_j W_{ij}^+ \mathbf{y}_j^+ - \sum_k W_{ik}^- \mathbf{x}_k\) 包含两项力:吸引项将每个预测拉向最近的专家模式,排斥项将预测彼此推开以确保覆盖所有模式
    • 设计动机:与流匹配的回归目标不同,漂移场提供了逐样本的精细位移向量,能在训练时完成迭代精炼的工作。双向归一化确保了均衡分配——这对少样本场景尤其重要
  2. 多尺度场聚合(Multi-Scale Field Aggregation):

    • 功能:在多个空间尺度上捕获不同粒度的动作模式结构
    • 核心思路:在多个温度 \(\{\tau_l\} = \{0.02, 0.05, 0.2\}\) 下分别计算漂移场并聚合:\(V_{total}(\mathbf{x}) = \sum_l V_{\tau_l}(\mathbf{x}) / \lambda_{\tau_l}\),其中 \(\lambda_{\tau_l}\) 对各场归一化到单位方差。所有样本预先归一化使得平均成对距离与 \(\sqrt{D}\) 成正比
    • 设计动机:不同机器人任务的动作分布几何差异极大——抓取任务的模式可能仅差几毫米(需要小温度),而双臂协调任务的模式可能完全不同的臂配置(需要大温度)。固定温度只能捕获单一尺度结构。自归一化设计使同一温度集在不同动作幅度的任务间通用
  3. Sigmoid调度的损失过渡(Sigmoid-Scheduled Loss Transition):

    • 功能:在训练过程中自动从粗糙分布学习平滑过渡到模式锐化精炼
    • 核心思路:损失函数为 \(\mathcal{L} = w_{drift}(e) \cdot \mathcal{L}_{drift} + w_{mse}(e) \cdot \|x - y^+\|^2\),权重通过 sigmoid 调度:\(w_{drift}(e) = \sigma((e - e_{mid})/(k \cdot E))\),交叉点 \(e_{mid} = 0.7E\),锐度 \(k=0.05\)。早期 MSE 主导,教模型动作分布的粗糙结构;后期漂移损失主导,锐化模式分离
    • 设计动机:在少样本场景(仅10-50条演示)中,模型初始预测距离数据模式太远,漂移场的软分配无法产生有意义的梯度。70%处的晚交叉反映了关键发现:少样本下模型需要大部分训练来建立粗糙分布,之后漂移精炼才有效

损失函数 / 训练策略

训练损失结合 MSE 回归损失和漂移场损失,通过 sigmoid 调度动态加权。漂移损失使用 stop-gradient:\(\mathcal{L}_{drift} = \|\hat{\mathbf{x}} - \text{sg}(\hat{\mathbf{x}} + V_{total})\|^2\)。架构上移除了时间步嵌入(因为不需要多步去噪),简化了网络结构。使用 AdamW 优化器,学习率 \(10^{-4}\),batch size 128,单卡 RTX 4090D 训练。

实验关键数据

主实验

数据集 指标(成功率%) Ada3Drift(1NFE) DP3(10NFE) MP1(1NFE) FlowPolicy(1NFE)
Adroit Hammer 成功率 90.3 88.7 84.3 77.0
Adroit Door 成功率 65.0 64.2 64.2 61.2
Adroit Pen 成功率 63.3 59.7 57.7 58.0
Meta-World Easy 成功率 86.7 85.5 85.8 84.3
RoboTwin 平均 成功率 71.2 62.5 68.3 58.4
真实机器人 平均 成功率 79 68 69 57

推理速度:Ada3Drift 233.9 Hz (4.3ms/step),比 DP3 (18.7 Hz) 快 12.5 倍。

消融实验

配置 Adroit 平均 Meta-World 平均 总平均 说明
DP3 (10 NFE) 70.9 78.9 78.0 多步基线
Naive Drifting (1 NFE) 67.4 76.8 75.0 无自适应调度
Ada3Drift (1 NFE) 72.9 80.1 78.9 完整模型

关键发现

  • Naive Drifting 反而退化:无 sigmoid 调度时,漂移损失在早期干扰基础重建目标,总平均下降3%。最大退化出现在 Pen(-4.9%)和 Very Hard(-9.7%)等高多模态任务
  • 自适应漂移的两个组件缺一不可:多温度聚合捕获不同粒度的模式结构,sigmoid 调度延迟漂移优化直到基础策略稳定。添加自适应漂移后不仅恢复而且超越 DP3 基线
  • 真实机器人上优势更大:Ada3Drift 在真实机器人上平均成功率79%,比 MP1(69%) 高10个百分点。FlowPolicy 在真实场景退化最严重(57%),说明模式平均的轨迹对真实世界扰动更不鲁棒
  • 训练动态分析:Pen 任务(高度多模态,24 DOF)上,Ada3Drift 在后期训练阶段才与基线拉开差距,与 sigmoid 调度在70%处激活漂移损失一致

亮点与洞察

  • 计算预算不对称的洞察:机器人系统训练离线、推理实时的结构性特征被精准利用——把迭代精炼的计算"搬运"到不受约束的训练阶段。这个思路对所有需要在推理时保持低延迟的生成式任务都有启发
  • 吸引-排斥场设计:同时有吸引(向专家模式)和排斥(远离其他预测)两个力,类似物理中的库仑力场。这避免了所有预测collapse到同一个模式,是一个优雅的多模态保持机制
  • 无时间步架构:移除传统扩散/流模型中的时间步嵌入,是单步生成的自然推论——既简化了架构又减少了参数。这个思路可迁移到其他固定步数的生成任务

局限与展望

  • Meta-World Hard 表现不稳定:Ada3Drift 在该类别上逊于 MP1(58.7% vs 62.3%),作者归因于高动作空间方差下 sigmoid 调度的交叉点可能需要任务特定调优
  • 温度选择固定\(\{0.02, 0.05, 0.2\}\) 三个温度是手工设定的,未探索自适应温度选择机制
  • 仅在少样本设置下验证:所有实验使用 10-50 条演示,未探索数据量增大后漂移场的效果变化
  • Stack Blocks 真实任务成功率偏低:60%的成功率说明在需要极高精度的堆叠任务上仍有改进空间

相关工作与启发

  • vs FlowPolicy/MP1: 这两种方法直接用流匹配/一致性模型实现单步生成,但继承了回归目标的模式平均问题。Ada3Drift 通过训练时漂移场显式解决了这个问题,尤其在多模态场景优势明显
  • vs Diffusion Policy/DP3: 扩散策略通过多步去噪保持模式多样性,但推理太慢。Ada3Drift 证明了训练时精炼可以完全补偿推理时迭代的损失,以 1/10 的推理成本达到甚至超越其性能
  • vs Deng et al. (图像生成漂移): 该工作首先在图像生成中提出训练时漂移,但其固定机制不适配机器人学习的少样本和多任务特性。Ada3Drift 的三项自适应设计(调度、多尺度、无时间步)是针对机器人场景的必要扩展

评分

  • 新颖性: ⭐⭐⭐⭐ 计算预算搬运的思路新颖,但漂移场机制借鉴自图像生成
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个仿真平台+真实机器人实验,消融全面,训练动态分析深入
  • 写作质量: ⭐⭐⭐⭐⭐ 问题抽象清晰,从观察到方案到验证一气呵成
  • 价值: ⭐⭐⭐⭐ 对实时机器人控制有实际意义,但应用范围限于操作任务

相关论文