Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation¶

会议: CVPR 2026
arXiv: 2603.11984
代码: 无
领域: 机器人学 / 视觉运动策略
关键词: 单步动作生成, 扩散策略, 3D点云, 多模态动作分布, 训练时漂移

一句话总结¶

Ada3Drift 提出将扩散策略中的迭代精炼从推理时转移到训练时，通过训练时漂移场（吸引预测动作至专家模式+排斥其他生成样本）实现高保真单步（1 NFE）3D 视觉运动策略，在 Adroit、Meta-World、RoboTwin 和真实机器人任务上达到 SOTA，同时推理速度提升 10 倍。

研究背景与动机¶

领域现状：基于扩散模型的视觉运动策略（如 Diffusion Policy、DP3）通过迭代去噪有效捕获多模态动作分布，已成为机器人学习的主流范式。但迭代去噪需要 10-100 次函数评估（NFE），与实时机器人控制所需的 10-50 Hz 频率形成根本性矛盾。
现有痛点：近期基于流匹配（Flow Matching）和一致性模型的单步生成方法虽然解决了推理延迟问题，但其回归目标会收敛到目标场的条件期望，将不同动作模式平均为一个混合体。在图像生成中这导致模糊；但在机器人动作空间中，两种有效策略的平均可能产生物理上不可行的轨迹（如从左绕和从右绕的平均是直接撞上障碍物）。
核心矛盾：速度与保真度的权衡——去掉迭代精炼获得速度，但丢失了多模态动作分布的表达能力。模式平均在机器人中不仅是质量问题，更是安全问题。
本文目标 在保持单步推理效率的同时，恢复扩散策略通过迭代精炼达到的多模态保真度。同时需要适应机器人学习的特殊挑战：少样本数据（10-50条演示）、不同任务的动作几何差异大。
切入角度：机器人系统存在天然的计算预算不对称——训练在离线GPU上进行无延迟约束，推理必须满足严格实时要求。现有方法把精炼预算花在了错误的时间点。应该将所有精炼放在训练时，推理只需一步前向传播。
核心 idea：将迭代精炼的计算预算从推理时"搬运"到训练时——通过漂移场在训练中引导模型输出分布趋向专家演示模式，推理时仅需单步生成。

方法详解¶

整体框架¶

Ada3Drift 的输入是机器人本体状态和 3D 点云观测，输出是未来 \(H=16\) 步动作轨迹。整个系统由三部分组成：(1) 3D 观测编码器（PointNet）处理点云和本体状态产生全局条件向量；(2) 无时间步的 1D U-Net 动作生成器，从高斯噪声直接映射到动作轨迹（1次前向传播）；(3) 训练时漂移场损失，通过吸引-排斥机制引导输出分布。推理时只执行生成器的前向传播（1 NFE）。

关键设计¶

训练时漂移场（Training-Time Drifting Field）:
- 功能：在训练期间显式将模型输出分布引导向专家演示模式，避免模式平均
- 核心思路：给定一批模型预测 \(\{\mathbf{x}_i\}\) 和专家演示 \(\{\mathbf{y}_j^+\}\)，通过双向亲和矩阵 \(A_{ij} = \sqrt{A_{ij}^{row} \cdot A_{ij}^{col}}\) 计算软分配。行归一化防止预测忽略远处模式，列归一化防止热门模式垄断所有预测。漂移场 \(V(\mathbf{x}_i) = \sum_j W_{ij}^+ \mathbf{y}_j^+ - \sum_k W_{ik}^- \mathbf{x}_k\) 包含两项力：吸引项将每个预测拉向最近的专家模式，排斥项将预测彼此推开以确保覆盖所有模式
- 设计动机：与流匹配的回归目标不同，漂移场提供了逐样本的精细位移向量，能在训练时完成迭代精炼的工作。双向归一化确保了均衡分配——这对少样本场景尤其重要
多尺度场聚合（Multi-Scale Field Aggregation）:
- 功能：在多个空间尺度上捕获不同粒度的动作模式结构
- 核心思路：在多个温度 \(\{\tau_l\} = \{0.02, 0.05, 0.2\}\) 下分别计算漂移场并聚合：\(V_{total}(\mathbf{x}) = \sum_l V_{\tau_l}(\mathbf{x}) / \lambda_{\tau_l}\)，其中 \(\lambda_{\tau_l}\) 对各场归一化到单位方差。所有样本预先归一化使得平均成对距离与 \(\sqrt{D}\) 成正比
- 设计动机：不同机器人任务的动作分布几何差异极大——抓取任务的模式可能仅差几毫米（需要小温度），而双臂协调任务的模式可能完全不同的臂配置（需要大温度）。固定温度只能捕获单一尺度结构。自归一化设计使同一温度集在不同动作幅度的任务间通用
Sigmoid调度的损失过渡（Sigmoid-Scheduled Loss Transition）:
- 功能：在训练过程中自动从粗糙分布学习平滑过渡到模式锐化精炼
- 核心思路：损失函数为 \(\mathcal{L} = w_{drift}(e) \cdot \mathcal{L}_{drift} + w_{mse}(e) \cdot \|x - y^+\|^2\)，权重通过 sigmoid 调度：\(w_{drift}(e) = \sigma((e - e_{mid})/(k \cdot E))\)，交叉点 \(e_{mid} = 0.7E\)，锐度 \(k=0.05\)。早期 MSE 主导，教模型动作分布的粗糙结构；后期漂移损失主导，锐化模式分离
- 设计动机：在少样本场景（仅10-50条演示）中，模型初始预测距离数据模式太远，漂移场的软分配无法产生有意义的梯度。70%处的晚交叉反映了关键发现：少样本下模型需要大部分训练来建立粗糙分布，之后漂移精炼才有效

损失函数 / 训练策略¶

训练损失结合 MSE 回归损失和漂移场损失，通过 sigmoid 调度动态加权。漂移损失使用 stop-gradient：\(\mathcal{L}_{drift} = \|\hat{\mathbf{x}} - \text{sg}(\hat{\mathbf{x}} + V_{total})\|^2\)。架构上移除了时间步嵌入（因为不需要多步去噪），简化了网络结构。使用 AdamW 优化器，学习率 \(10^{-4}\)，batch size 128，单卡 RTX 4090D 训练。

实验关键数据¶

主实验¶

数据集	指标(成功率%)	Ada3Drift(1NFE)	DP3(10NFE)	MP1(1NFE)	FlowPolicy(1NFE)
Adroit Hammer	成功率	90.3	88.7	84.3	77.0
Adroit Door	成功率	65.0	64.2	64.2	61.2
Adroit Pen	成功率	63.3	59.7	57.7	58.0
Meta-World Easy	成功率	86.7	85.5	85.8	84.3
RoboTwin 平均	成功率	71.2	62.5	68.3	58.4
真实机器人平均	成功率	79	68	69	57

推理速度：Ada3Drift 233.9 Hz (4.3ms/step)，比 DP3 (18.7 Hz) 快 12.5 倍。

消融实验¶

配置	Adroit 平均	Meta-World 平均	总平均	说明
DP3 (10 NFE)	70.9	78.9	78.0	多步基线
Naive Drifting (1 NFE)	67.4	76.8	75.0	无自适应调度
Ada3Drift (1 NFE)	72.9	80.1	78.9	完整模型

关键发现¶

Naive Drifting 反而退化：无 sigmoid 调度时，漂移损失在早期干扰基础重建目标，总平均下降3%。最大退化出现在 Pen（-4.9%）和 Very Hard（-9.7%）等高多模态任务
自适应漂移的两个组件缺一不可：多温度聚合捕获不同粒度的模式结构，sigmoid 调度延迟漂移优化直到基础策略稳定。添加自适应漂移后不仅恢复而且超越 DP3 基线
真实机器人上优势更大：Ada3Drift 在真实机器人上平均成功率79%，比 MP1(69%) 高10个百分点。FlowPolicy 在真实场景退化最严重（57%），说明模式平均的轨迹对真实世界扰动更不鲁棒
训练动态分析：Pen 任务（高度多模态，24 DOF）上，Ada3Drift 在后期训练阶段才与基线拉开差距，与 sigmoid 调度在70%处激活漂移损失一致

亮点与洞察¶

计算预算不对称的洞察：机器人系统训练离线、推理实时的结构性特征被精准利用——把迭代精炼的计算"搬运"到不受约束的训练阶段。这个思路对所有需要在推理时保持低延迟的生成式任务都有启发
吸引-排斥场设计：同时有吸引（向专家模式）和排斥（远离其他预测）两个力，类似物理中的库仑力场。这避免了所有预测collapse到同一个模式，是一个优雅的多模态保持机制
无时间步架构：移除传统扩散/流模型中的时间步嵌入，是单步生成的自然推论——既简化了架构又减少了参数。这个思路可迁移到其他固定步数的生成任务

局限与展望¶

Meta-World Hard 表现不稳定：Ada3Drift 在该类别上逊于 MP1（58.7% vs 62.3%），作者归因于高动作空间方差下 sigmoid 调度的交叉点可能需要任务特定调优
温度选择固定：\(\{0.02, 0.05, 0.2\}\) 三个温度是手工设定的，未探索自适应温度选择机制
仅在少样本设置下验证：所有实验使用 10-50 条演示，未探索数据量增大后漂移场的效果变化
Stack Blocks 真实任务成功率偏低：60%的成功率说明在需要极高精度的堆叠任务上仍有改进空间

评分¶

新颖性: ⭐⭐⭐⭐ 计算预算搬运的思路新颖，但漂移场机制借鉴自图像生成
实验充分度: ⭐⭐⭐⭐⭐ 三个仿真平台+真实机器人实验，消融全面，训练动态分析深入
写作质量: ⭐⭐⭐⭐⭐ 问题抽象清晰，从观察到方案到验证一气呵成
价值: ⭐⭐⭐⭐ 对实时机器人控制有实际意义，但应用范围限于操作任务