You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector¶

日期: 2026-03-16
arXiv: 2603.15757
代码: 项目页
领域: 机器人 / 图像生成 / 扩散模型
关键词: 扩散策略, 噪声优化, 潜空间引导, 机器人操作, VLA

一句话总结¶

提出 Golden Ticket 假说——固定一个精心选择的初始噪声向量代替每次从高斯分布采样，即可在完全冻结预训练扩散/流匹配策略的情况下提升下游任务性能，在 43 个任务中的 38 个提升成功率（模拟最高 +58%，真实硬件最高 +60%），无需训练额外网络。

研究背景与动机¶

领域现状: 扩散和流匹配模型已成为机器人控制策略的主流方法，能表示高维多模态动作分布，广泛应用于单任务策略和大规模多任务 VLA。
现有痛点: 提升预训练策略在下游任务上的表现面临三大挑战——(a) 更新模型权重对大型 VLA 计算开销巨大；(b) 训练额外噪声策略网络（如 DSRL）需要复杂的模型设计和 RL 超参调整；(c) 依赖外部 critic 网络或特定训练范式限制了适用场景。
核心矛盾: 想要改善冻结模型的行为，但现有方法都需要某种形式的额外训练或基础设施。工业部署场景中，预训练模型通常作为黑盒使用，不允许修改权重或添加复杂组件。
切入角度: 受图像生成领域"golden noise"假说的启发——随机初始噪声中存在特殊噪声向量，天然倾向于被去噪为特定高质量内容。作者将这一直觉迁移到机器人控制：如果用一个固定的"好噪声"代替每次随机采样，能否系统性地改善策略表现？
核心 idea: 将随机初始噪声替换为单个优化的常量噪声向量（golden ticket），通过蒙特卡洛策略评估的随机搜索找到最优 ticket，实现零训练、零基础设施的策略改进。

方法详解¶

整体框架¶

输入：冻结的预训练扩散/流匹配策略 \(\pi\)，下游任务环境+奖励函数
在标准推理中，每次生成动作时从 \(z_1 \sim \mathcal{N}(0, I)\) 采样初始噪声 → 通过去噪过程生成动作
Golden Ticket 方法：将 \(z_1\) 固定为一个常量向量 \(w^*\)，所有推理步骤共享这同一个生成动作
搜索过程：采样 \(n\) 个候选 ticket → 逐个在环境中 rollout 评估 → 选择平均回报最高的

关键设计¶

Lottery Ticket 假说（机器人版）:
- 做什么：论证固定初始噪声向量可以系统性改变扩散策略行为
- 核心思路：在流匹配中，生成过程 \(z_j = z_k + \hat{u} \cdot (j-k)\) 以 \(z_1\) 为起点迭代去噪。不同 \(z_1\) 会引导到动作空间的不同区域。如果某个 \(z_1\) 恰好引导策略到高奖励区域，且这种引导在不同观测下都成立，那么固定这个 \(z_1\) 就能一致性地提升性能
- 与图像生成的区别：机器人场景中 (a) 决策影响未来状态（序列决策），(b) 环境采样成本高，(c) 奖励可能不可微——这些差异要求专门的搜索方法
随机搜索算法（Algorithm 1）:
- 做什么：在候选噪声空间中找到最优 golden ticket
- 核心思路：采样 \(n\) 个候选向量 \(\{w_i\}_{i=1}^n \sim \mathcal{N}(0,I)\)，每个在搜索环境集 \(E\) 中 rollout 计算平均回报 \(\bar{R}_i = \frac{1}{|E|} \sum_{e \in E} R_e\)，返回 \(w^* = \arg\max_i \bar{R}_i\)
- 设计动机：(a) 只需要能注入初始噪声+计算稀疏奖励，无其他假设；(b) 不需要额外基础设施或模型；(c) 适用于所有扩散/流匹配策略（包括 VLA 黑盒模型）
- 搜索/评估分离：在搜索环境中优化后用 held-out 环境验证，避免过拟合
搜索预算权衡:
- 做什么：平衡候选数量 \(n\) 和搜索环境数 \(|E|\) 的分配
- 核心思路：更多 ticket → 更好覆盖但可能过拟合搜索环境；更多环境 → 更可靠的评估但评估的 ticket 更少
- 实际设置：最小 ~100 tickets × 50 环境（franka_sim），最大 5000 tickets × 100 环境（robomimic）

实验关键数据¶

主实验：Golden Ticket vs Gaussian（成功率 %）¶

基准	任务	Base Policy	Golden Ticket	提升
franka_sim	方块抓取	38.5%	96.0%	+57.5%
robomimic	Can	42.8%	80.8%	+38.0%
LIBERO-Spatial	10任务平均	80.4%	93.4%	+13.0%
LIBERO-Goal	10任务平均	81.6%	94.4%	+12.8%
真实硬件	方块抓取(RGB)	80%	98%	+18%
真实硬件	杯子推(点云)	40%	100%	+60%

43 个任务中 38 个提升，41 个至少持平。

vs DSRL（DexMimicGen 5 任务平均成功率）¶

方法	5K episodes	10K episodes	额外训练
Base Policy	~70%	~70%	无
DSRL (2 DDIM steps)	~73%	~75%	需要训练噪声网络
Golden Ticket (2 steps)	~71%	~72%	无
DSRL (8 DDIM steps)	~65%	~67%	需要训练噪声网络
Golden Ticket (8 steps)	~73%	~74%	无

8 DDIM steps 时 golden ticket 超越 DSRL；2 steps 时 DSRL 略优。

关键发现¶

跨任务迁移: 在 LIBERO-Object 中，针对一个任务优化的 ticket #015a 在 5 个任务上达 100% 成功率（base policy 仅 2 个），说明 golden ticket 编码了泛化的"好行为模式"
Pareto 前沿: 不同 ticket 自然在"成功率 vs 速度"两个目标间定义了 Pareto 前沿，无需设计多个奖励函数
硬件高效: 真实硬件上仅需 50-150 个搜索 episode 即可找到显著提升的 golden ticket
极端可控性: Ticket 5 达 98% 成功率，Ticket 6 仅 4%——同一模型用不同固定噪声表现天壤之别

亮点与洞察¶

极简但有效的策略改进: 不改权重、不训网络、不加基础设施，仅优化一个噪声向量就能显著提升——这是目前最轻量的 latent steering 方法，对工业部署极具吸引力
将图像生成洞察迁移到机器人: 首次建立 golden noise（图像生成）和 latent steering（机器人控制）之间的联系，是一个优雅的跨域迁移
确定性策略的双面性: 固定噪声使策略变为确定性的，好处是可预测和可复现，坏处是丧失了探索性。作者建议从多个 golden ticket 中随机采样来恢复随机性

局限性 / 可改进方向¶

策略变为确定性的，失去多样性，需要额外机制恢复随机性
随机搜索在高维噪声空间中效率有限，更智能的搜索（如 CMA-ES 或基于梯度的方法）可能大幅减少搜索预算
跨任务迁移在全任务套件平均时未超越 base policy，说明 golden ticket 的好处是任务特异的
仅在操作任务上验证，移动、导航等其他机器人任务是否适用待探索
不保证找到的 ticket 是全局最优的，搜索结果依赖采样数量

评分¶

新颖性: ⭐⭐⭐⭐ 想法简单但巧妙，首次将 golden noise 概念引入机器人控制
实验充分度: ⭐⭐⭐⭐⭐ 4 个模拟基准（40 任务）+ 3 个真实硬件任务，多种模型架构和输入模态
写作质量: ⭐⭐⭐⭐ 结构清晰，实验问题驱动的叙述方式很好
价值: ⭐⭐⭐⭐ 对 VLA 部署场景有直接实用价值，开源代码和预训练 ticket 进一步提升了贡献