You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector¶
日期: 2026-03-16
arXiv: 2603.15757
代码: 项目页
领域: 机器人 / 图像生成 / 扩散模型
关键词: 扩散策略, 噪声优化, 潜空间引导, 机器人操作, VLA
一句话总结¶
提出 Golden Ticket 假说——固定一个精心选择的初始噪声向量代替每次从高斯分布采样,即可在完全冻结预训练扩散/流匹配策略的情况下提升下游任务性能,在 43 个任务中的 38 个提升成功率(模拟最高 +58%,真实硬件最高 +60%),无需训练额外网络。
研究背景与动机¶
-
领域现状: 扩散和流匹配模型已成为机器人控制策略的主流方法,能表示高维多模态动作分布,广泛应用于单任务策略和大规模多任务 VLA。
-
现有痛点: 提升预训练策略在下游任务上的表现面临三大挑战——(a) 更新模型权重对大型 VLA 计算开销巨大;(b) 训练额外噪声策略网络(如 DSRL)需要复杂的模型设计和 RL 超参调整;(c) 依赖外部 critic 网络或特定训练范式限制了适用场景。
-
核心矛盾: 想要改善冻结模型的行为,但现有方法都需要某种形式的额外训练或基础设施。工业部署场景中,预训练模型通常作为黑盒使用,不允许修改权重或添加复杂组件。
-
切入角度: 受图像生成领域"golden noise"假说的启发——随机初始噪声中存在特殊噪声向量,天然倾向于被去噪为特定高质量内容。作者将这一直觉迁移到机器人控制:如果用一个固定的"好噪声"代替每次随机采样,能否系统性地改善策略表现?
-
核心 idea: 将随机初始噪声替换为单个优化的常量噪声向量(golden ticket),通过蒙特卡洛策略评估的随机搜索找到最优 ticket,实现零训练、零基础设施的策略改进。
方法详解¶
整体框架¶
- 输入:冻结的预训练扩散/流匹配策略 \(\pi\),下游任务环境+奖励函数
- 在标准推理中,每次生成动作时从 \(z_1 \sim \mathcal{N}(0, I)\) 采样初始噪声 → 通过去噪过程生成动作
- Golden Ticket 方法:将 \(z_1\) 固定为一个常量向量 \(w^*\),所有推理步骤共享这同一个生成动作
- 搜索过程:采样 \(n\) 个候选 ticket → 逐个在环境中 rollout 评估 → 选择平均回报最高的
关键设计¶
-
Lottery Ticket 假说(机器人版):
- 做什么:论证固定初始噪声向量可以系统性改变扩散策略行为
- 核心思路:在流匹配中,生成过程 \(z_j = z_k + \hat{u} \cdot (j-k)\) 以 \(z_1\) 为起点迭代去噪。不同 \(z_1\) 会引导到动作空间的不同区域。如果某个 \(z_1\) 恰好引导策略到高奖励区域,且这种引导在不同观测下都成立,那么固定这个 \(z_1\) 就能一致性地提升性能
- 与图像生成的区别:机器人场景中 (a) 决策影响未来状态(序列决策),(b) 环境采样成本高,(c) 奖励可能不可微——这些差异要求专门的搜索方法
-
随机搜索算法(Algorithm 1):
- 做什么:在候选噪声空间中找到最优 golden ticket
- 核心思路:采样 \(n\) 个候选向量 \(\{w_i\}_{i=1}^n \sim \mathcal{N}(0,I)\),每个在搜索环境集 \(E\) 中 rollout 计算平均回报 \(\bar{R}_i = \frac{1}{|E|} \sum_{e \in E} R_e\),返回 \(w^* = \arg\max_i \bar{R}_i\)
- 设计动机:(a) 只需要能注入初始噪声+计算稀疏奖励,无其他假设;(b) 不需要额外基础设施或模型;(c) 适用于所有扩散/流匹配策略(包括 VLA 黑盒模型)
- 搜索/评估分离:在搜索环境中优化后用 held-out 环境验证,避免过拟合
-
搜索预算权衡:
- 做什么:平衡候选数量 \(n\) 和搜索环境数 \(|E|\) 的分配
- 核心思路:更多 ticket → 更好覆盖但可能过拟合搜索环境;更多环境 → 更可靠的评估但评估的 ticket 更少
- 实际设置:最小 ~100 tickets × 50 环境(franka_sim),最大 5000 tickets × 100 环境(robomimic)
实验关键数据¶
主实验:Golden Ticket vs Gaussian(成功率 %)¶
| 基准 | 任务 | Base Policy | Golden Ticket | 提升 |
|---|---|---|---|---|
| franka_sim | 方块抓取 | 38.5% | 96.0% | +57.5% |
| robomimic | Can | 42.8% | 80.8% | +38.0% |
| LIBERO-Spatial | 10任务平均 | 80.4% | 93.4% | +13.0% |
| LIBERO-Goal | 10任务平均 | 81.6% | 94.4% | +12.8% |
| 真实硬件 | 方块抓取(RGB) | 80% | 98% | +18% |
| 真实硬件 | 杯子推(点云) | 40% | 100% | +60% |
43 个任务中 38 个提升,41 个至少持平。
vs DSRL(DexMimicGen 5 任务平均成功率)¶
| 方法 | 5K episodes | 10K episodes | 额外训练 |
|---|---|---|---|
| Base Policy | ~70% | ~70% | 无 |
| DSRL (2 DDIM steps) | ~73% | ~75% | 需要训练噪声网络 |
| Golden Ticket (2 steps) | ~71% | ~72% | 无 |
| DSRL (8 DDIM steps) | ~65% | ~67% | 需要训练噪声网络 |
| Golden Ticket (8 steps) | ~73% | ~74% | 无 |
8 DDIM steps 时 golden ticket 超越 DSRL;2 steps 时 DSRL 略优。
关键发现¶
- 跨任务迁移: 在 LIBERO-Object 中,针对一个任务优化的 ticket #015a 在 5 个任务上达 100% 成功率(base policy 仅 2 个),说明 golden ticket 编码了泛化的"好行为模式"
- Pareto 前沿: 不同 ticket 自然在"成功率 vs 速度"两个目标间定义了 Pareto 前沿,无需设计多个奖励函数
- 硬件高效: 真实硬件上仅需 50-150 个搜索 episode 即可找到显著提升的 golden ticket
- 极端可控性: Ticket 5 达 98% 成功率,Ticket 6 仅 4%——同一模型用不同固定噪声表现天壤之别
亮点与洞察¶
- 极简但有效的策略改进: 不改权重、不训网络、不加基础设施,仅优化一个噪声向量就能显著提升——这是目前最轻量的 latent steering 方法,对工业部署极具吸引力
- 将图像生成洞察迁移到机器人: 首次建立 golden noise(图像生成)和 latent steering(机器人控制)之间的联系,是一个优雅的跨域迁移
- 确定性策略的双面性: 固定噪声使策略变为确定性的,好处是可预测和可复现,坏处是丧失了探索性。作者建议从多个 golden ticket 中随机采样来恢复随机性
局限性 / 可改进方向¶
- 策略变为确定性的,失去多样性,需要额外机制恢复随机性
- 随机搜索在高维噪声空间中效率有限,更智能的搜索(如 CMA-ES 或基于梯度的方法)可能大幅减少搜索预算
- 跨任务迁移在全任务套件平均时未超越 base policy,说明 golden ticket 的好处是任务特异的
- 仅在操作任务上验证,移动、导航等其他机器人任务是否适用待探索
- 不保证找到的 ticket 是全局最优的,搜索结果依赖采样数量
相关工作与启发¶
- vs DSRL: DSRL 训练观测条件化的噪声策略网络实现 latent steering,golden ticket 用单个无条件噪声向量实现类似效果,计算成本低 1-2 个数量级
- vs DPPO: DPPO 通过 RL 更新扩散策略权重,golden ticket 完全冻结权重,适用于无法微调的黑盒 VLA
- vs Golden Noise(图像生成): 图像生成中的 golden noise 优化文本-图像对齐等可微指标,机器人场景需要处理序列决策和不可微奖励,由此提出蒙特卡洛搜索方法
评分¶
- 新颖性: ⭐⭐⭐⭐ 想法简单但巧妙,首次将 golden noise 概念引入机器人控制
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个模拟基准(40 任务)+ 3 个真实硬件任务,多种模型架构和输入模态
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验问题驱动的叙述方式很好
- 价值: ⭐⭐⭐⭐ 对 VLA 部署场景有直接实用价值,开源代码和预训练 ticket 进一步提升了贡献