Exploring Conditions for Diffusion Models in Robotic Control¶

会议: CVPR 2026
arXiv: 2510.15510
代码: https://orca-rc.github.io/
领域: 扩散模型 / 机器人控制
关键词: 扩散模型, 机器人控制, 视觉表示, 任务自适应, 可学习提示词

一句话总结¶

本文探索了如何用预训练文本到图像扩散模型的条件机制为机器人控制生成任务自适应的视觉表示，发现文本条件在控制环境中因域差距而无效，提出 ORCA 框架通过可学习的任务提示词(task prompts)和逐帧视觉提示词(visual prompts)作为条件机制，在 DMC/MetaWorld/Adroit 三个基准的 12 个任务上达到 SOTA。

研究背景与动机¶

领域现状：预训练视觉表示（如 CLIP、VC-1、MVP）已成为模仿学习的标准范式——冻结预训练编码器提取视觉特征，下游策略网络学习从特征到动作的映射。同时，扩散模型（如 Stable Diffusion）在语义分割、深度估计等视觉感知任务中已展现出强大的表示能力，且通过文本条件可以实现任务自适应。
现有痛点：(a) 冻结的视觉表示是任务无关的——同一表示在不同控制任务上性能波动大，需要逐任务手动挑选；(b) 微调视觉编码器会因模仿学习数据量少而严重过拟合；(c) 文本条件在视觉感知任务中效果显著（如 VPD 中描述图中物体提升语义分割），但直接应用于控制环境效果甚微甚至有害。
核心矛盾：控制环境与扩散模型训练数据（网络图像）存在巨大域差距，导致文本-图像关联失败；同时控制任务是动态视频流而非静态图像，需要逐帧的细粒度条件而非全局描述。
本文目标 如何为扩散模型设计适合机器人控制的条件机制，使其在不微调模型本身的情况下生成任务自适应的视觉表示？
切入角度：通过分析 cross-attention map 发现，文本条件在控制环境中存在接地失败（grounding failure）——如"cheetah"一词无法在 MuJoCo 渲染的猎豹上形成正确的注意力。因此条件应该(a)能适应控制环境、(b)包含逐帧视觉信息。
核心 idea：用可学习的任务提示词替代文本条件来适应控制环境，并引入基于视觉编码器的逐帧视觉提示词来捕获动态细节，两者都通过行为克隆目标端到端学习。

方法详解¶

整体框架¶

ORCA 的管线：输入观察图像 \(I\) → VQGAN 编码器将其编码为潜变量 \(z_0\) → 加噪得到 \(z_t\)（\(t=0\)）→ 将 \(z_t\) 送入 Stable Diffusion 的 U-Net，条件 \(\mathcal{C}^*\) 由任务提示词和视觉提示词通过文本编码器生成 → 从 U-Net 的下采样层和瓶颈层提取中间特征 \(f\) → 压缩层处理后送入策略网络 \(\pi_\phi\) → 输出动作。整个过程中扩散模型冻结，仅学习提示词和策略网络。

关键设计¶

任务提示词 (Task Prompts):
- 功能：替代文本条件，在控制环境中实现正确的语义接地
- 核心思路：实现为可学习参数（\(l_t = 4\) 个 token），在所有训练观察中共享。不使用真实文本而是直接学习隐式的"词汇"，让 cross-attention 自动聚焦于任务相关区域。通过行为克隆损失 \(\mathcal{L}_{\text{BC}}\) 端到端优化
- 设计动机：真实文本在控制环境中因域差距导致接地失败；可学习 token 避免了这个问题，让模型自己发现哪些区域对任务重要。可视化显示任务提示词在 Button-press 中同时关注按钮和机械臂，在 Cheetah-run 中关注智能体整体
视觉提示词 (Visual Prompts):
- 功能：为条件注入逐帧的细粒度视觉信息，捕获动态行为
- 核心思路：使用预训练 DINOv2 作为视觉编码器 \(\mathcal{E}_V\)，提取稠密视觉特征（非全局表示），通过小型卷积层投影为 \(l_v = 16\) 个 visual token，与任务提示词拼接后送入文本编码器作为条件
- 设计动机：控制任务涉及智能体和物体的细粒度运动，需要逐帧不同的条件来引导动态行为。全局特征无法捕获局部动作细节（如区分前腿和后腿），稠密特征提供了所需的空间细粒度。可视化显示不同 visual token 在 Relocate 任务中动态关注不同区域（手、桌子、球）
行为克隆端到端训练:
- 功能：在下游策略学习中同时学习提示词和策略网络
- 核心思路：给定轨迹 \(\{I_o^i, a_o^i\}\)，最小化 \(\mathcal{L}_{\text{BC}}(\phi, \mathbf{p}) = \sum_{i,o} \|\pi_\phi(\epsilon_\theta(z_t, t; \mathcal{C}^*)) - a_o^i\|\)，其中条件 \(\mathcal{C}^* = \tau_\theta(p_t; p_v)\)。扩散模型完全冻结，仅学习 10.6M 参数（提示词+压缩层+策略网络）
- 设计动机：不微调扩散模型避免过拟合（实验显示全微调导致成功率崩溃超过 80%），同时通过学习提示词实现任务自适应——不同任务只需更换提示词模块

损失函数 / 训练策略¶

标准行为克隆 L1/L2 损失
扩散模型使用 SD 1.5，时间步 \(t=0\)
使用下采样块(down_1-3)和瓶颈块(mid)的特征拼接
每个任务训练 100 epoch，每 10 epoch 在线评估
Adroit 2次演示、DMC 5次、MetaWorld 5次

实验关键数据¶

主实验¶

DeepMind Control 归一化得分:

方法	Stand	Walk	Reacher	Cheetah	Finger	Mean
CLIP	87.3	58.3	54.5	29.9	67.5	59.5
VC-1	86.1	54.3	18.3	40.9	65.7	53.1
SCR (null cond.)	85.5	64.3	81.8	43.4	66.6	68.3
CoOp	87.2	67.8	87.1	45.0	65.9	70.6
TADP	89.0	69.9	86.6	41.1	66.9	70.7
ORCA	89.1	76.9	87.6	50.0	68.0	74.3

Adroit 成功率 (%):

方法	Pen	Relocate	Mean
VC-1	65.3	29.3	47.3
SCR	84.0	32.0	58.0
TADP	81.3	33.3	57.3
ORCA	86.7	44.0	65.3

消融实验¶

组件分析 (DMC):

Task Prompt	Visual Prompt	Mean Score
✗	✗	68.3
✓	✗	69.8
✗	✓	70.5
✓	✓	74.3

微调 vs 提示词学习 (Adroit):

方法	可学习参数	Mean
SCR (frozen)	-	58.0
SCR + Full FT	346.7M	9.3
SCR + LoRA	4.6M	60.0
ORCA	10.6M	65.3

关键发现¶

文本条件在控制任务中不可靠：文本条件在部分任务提升（Button-press）但其他任务下降（Cheetah-run），归因于扩散模型训练数据与控制环境的域差距导致 cross-attention 接地失败
任务提示词和视觉提示词互补且缺一不可：单独使用各提升 1.5-2.2 分，组合使用提升 6 分（68.3→74.3），说明不同任务对任务级和帧级信息的需求不同
全微调灾难性：SCR 全微调后成功率从 58% 降到 9.3%，而 ORCA 仅用 10.6M 参数达到 65.3%，说明条件学习远优于参数微调
U-Net 早期层更适合控制任务：下采样层 + 瓶颈层的特征优于上采样层，因为早期层编码更高层的语义信息

亮点与洞察¶

揭示了文本条件在控制领域的失败模式：通过 cross-attention 可视化分析，清楚展示了域差距如何导致文本接地失败。这个发现对所有试图在控制任务中使用 VLM 条件的研究有警示价值。null condition 的 token 已经粗略接地到显著目标，解释了为什么不好的文本条件反而比空条件更差。
任务提示词作为隐式任务描述：不同于显式文本描述，可学习 token 通过端到端训练自动发现任务相关区域，避免了人工设计文本的困难和域差距问题。这个方案的简洁性和有效性令人印象深刻。
视觉提示词的动态注意力：可视化显示不同 visual token 在 Relocate 任务的不同阶段关注不同区域——捡球阶段关注桌面，移动阶段关注手部，说明模型学会了根据任务进度动态调整注意力。

局限与展望¶

仅使用 SD 1.5：较老的 U-Net 架构，DiT 等新架构可能需要不同的条件设计
DINOv2 视觉编码器的选择缺乏充分消融：其他视觉编码器（如 MAE、CLIP）的效果未详细比较
仅在模拟环境评估：MuJoCo 模拟器与真实机器人操控仍有差距
动作空间有限：主要是连续控制和简单操控任务，复杂的长时地平线任务未验证
改进方向：探索 DiT 架构下的条件设计；在真实机器人场景验证；结合 VLM 的语义理解和 ORCA 的视觉条件

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统探索扩散模型条件机制在控制中的作用，task+visual prompt 设计简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 12个任务、3个基准、多种基线对比、丰富的消融和可视化分析
写作质量: ⭐⭐⭐⭐⭐ 动机分析（cross-attention 可视化）极具说服力，行文流畅
价值: ⭐⭐⭐⭐ 对机器人视觉表示设计有实际指导意义，但限于模拟环境