跳转至

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

会议: CVPR 2025
arXiv: 2503.22020
代码: https://cot-vla.github.io/
作者: Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin
机构: NVIDIA, Stanford University, MIT
领域: LLM推理
关键词: VLA, Chain-of-Thought, 视觉推理, 机器人操作, 子目标预测

一句话总结

提出 CoT-VLA,将视觉思维链推理引入视觉-语言-动作模型,通过两阶段推理——先预测子目标图像再生成动作序列——结合混合注意力和动作分块策略,在 LIBERO 基准上实现 81.13% 平均成功率,显著超越现有方法。

研究背景与动机

领域现状:视觉-语言-动作模型(VLA)旨在利用大规模预训练的视觉-语言模型(VLM)直接从视觉观测和语言指令生成机器人动作。现有 VLA 如 OpenVLA、RT-2 等已展示了从互联网级预训练中获益的潜力,但在长 horizon 和复杂推理任务上表现仍有限。

现有痛点:当前 VLA 模型采用直接的"观测→动作"映射,缺乏中间推理步骤。这种端到端映射在面对需要多步规划的任务时容易失败——模型无法将复杂任务分解为可管理的子步骤。此外,现有方法训练数据局限于带动作标注的机器人数据集,无法利用大量无标注的人类活动视频。

核心矛盾:人类在执行复杂操作时会自然地进行视觉规划——先想象下一步的目标状态,再执行具体动作。但现有 VLA 缺乏这种"先规划后执行"的能力。如何在 VLA 中引入视觉层面的思维链推理,同时保持模型的端到端特性,是一个未解决的问题。

切入角度:借鉴 CoT 在 LLM 中的成功经验,将其推广到视觉-动作领域。关键观察是:子目标图像可以作为视觉领域的"中间推理步骤",它既为动作生成提供了明确的目标导向,又可通过海量无标注视频进行预训练。

核心idea:CoT-VLA 将机器人动作生成分解为两阶段推理:(1)给定当前观测和语言指令,先预测未来的子目标图像;(2)以子目标图像为条件,生成到达该目标的动作序列。通过统一的多模态模型 VILA-U 实现图像生成和动作预测的端到端框架。

方法详解

整体框架

CoT-VLA 构建于统一多模态基础模型 VILA-U 之上,采用两阶段推理范式:Phase 1 接收当前图像观测和语言指令,通过自回归方式生成子目标图像 token;Phase 2 以当前观测、语言指令和预测的子目标图像为条件,生成动作序列。整个过程在单一模型内完成,共享权重。

关键设计

  1. 视觉思维链推理(Visual Chain-of-Thought)

    • 功能:将动作生成过程分解为"子目标预测 + 动作生成"两阶段
    • 核心思路:Phase 1 使用当前观测图像(256×256)通过残差量化编码为 16×16×4 = 1024 个离散 token,模型自回归地预测未来 0.5-1 秒后的子目标图像 token;Phase 2 将预测的子目标图像 token 与当前观测拼接,生成一组动作 chunk
    • 设计动机:子目标图像提供了比语言指令更精确的目标描述,尤其在空间关系复杂的任务中。Ground-truth 子目标图像可以在 OOD 任务上将成功率提高 40%,验证了视觉目标对动作生成的关键导向作用
  2. 混合注意力机制(Hybrid Attention)

    • 功能:为不同模态使用不同的注意力模式
    • 核心思路:图像 token 和文本 token 使用因果注意力(causal attention),保持自回归生成的一致性;动作 token 之间使用全注意力(full attention),允许动作序列内部的双向信息交互
    • 设计动机:动作预测本质上是一个序列到序列的回归任务,不同于文本/图像的自回归生成。全注意力让每个动作 token 都能参考序列中其他动作 token,提高动作序列的时间一致性
  3. 动作分块与离散化(Action Chunking)

    • 功能:模型一次预测 10 个时间步的动作序列
    • 核心思路:每个动作由 7 个 token 表示(对应机器人 7 自由度),每个 token 通过 256 个离散 bin 量化。一个 chunk 共 70 个 token
    • 设计动机:分块预测减少了自回归循环次数,提升推理效率;同时 chunk 内的动作保持时间连贯性
  4. 无标注视频预训练

    • 功能:利用 EPIC-KITCHENS 和 Something-Something V2 等人类活动视频进行预训练
    • 核心思路:从视频中采样帧对作为"当前观测-子目标图像"对,训练模型预测未来帧,无需动作标注
    • 设计动机:获取大量无费力标注的训练数据,学习视觉世界的物理规律和物体交互模式

损失函数 / 训练策略

  • 预训练阶段:在无标注视频上训练子目标预测能力,使用 12 个 A100 GPU 节点,总计约 11K A100 GPU 小时
  • 微调阶段:在带动作标注的机器人数据上微调整个模型
  • 动作离散化:每个动作维度均匀量化为 256 个 bin
  • 图像编码:256×256 图像通过残差量化编码为 16×16 spatial × 4 codebook depth = 1024 个 token

实验关键数据

主实验:LIBERO 基准测试

方法 平均 Spatial Object Goal Long
Diffusion Policy 72.4% 78.3% 92.5% 68.3% 50.5%
OpenVLA 76.5% 84.7% 88.4% 79.2% 53.7%
π₀ (flow matching) 79.2% 86.0% 90.3% 82.5% 58.0%
CoT-VLA-7B 81.13% 87.5% 91.6% 87.6% 69.0%

CoT-VLA 在所有四个任务套件上均取得最优或接近最优的结果,尤其在 Long-horizon 任务上提升最大(+15.3% vs OpenVLA),验证了视觉思维链在复杂长序列任务中的优势。

消融实验

配置 LIBERO 平均 相对变化
CoT-VLA (完整) 81.13%
w/o 动作分块 (chunk=1) 78.2% -2.9%
w/o 混合注意力 (全因果) 79.8% -1.3%
w/o CoT (直接动作预测) 75.5% -5.6%
w/o 视频预训练 53.7% -27.4%

预训练效果

  • 无预训练基线:53.7% 平均成功率
  • 有视频预训练:78.8% 平均成功率
  • 相对提升 46.7%,证明无标注视频预训练对 VLA 的巨大贡献

子目标图像质量分析

  • 使用 ground-truth 子目标图像替换预测子目标:OOD 任务成功率提升约 40%
  • 表明当前子目标预测质量仍有提升空间,更好的视觉生成能力将直接转化为动作性能提升

关键发现

  • CoT 推理是最重要的组件:移除 CoT(直接动作预测)导致 5.6% 的性能下降,远大于其他消融
  • Long-horizon 任务受益最大:CoT-VLA 在 LIBERO-Long 上比 OpenVLA 提升 15.3 个百分点
  • 预训练效果惊人:视频预训练带来 46.7% 的相对提升,揭示了无标注视频数据的巨大潜力
  • 推理速度权衡:需要生成 256 个子目标图像 token,推理速度约慢 7 倍

亮点与洞察

  • 视觉 CoT 是自然延伸:将 CoT 从文本推理推广到视觉规划是非常自然的迁移——机器人在动作执行前先"想象"目标状态,与人类的空间规划能力对齐。
  • 子目标作为可解释瓶颈:预测的子目标图像提供了模型决策过程的可视化解释,有助于调试和人机交互。
  • 无标注视频的杠杆效应:通过视觉 CoT 框架,大量无标注视频可以直接用于训练,突破了机器人数据稀缺的瓶颈。

局限与展望

  • 推理延迟问题:生成 256 个子目标图像 token 导致约 7× 的推理减速,对实时控制任务不够友好
  • 子目标预测精度:当前预测的子目标与真实目标仍有差距(GT 目标可带来额外 40% OOD 提升)
  • 单一子目标局限:当前只预测一步子目标,对于非常长的 horizon 任务可能不够
  • 计算成本高:11K A100 GPU 小时的预训练成本限制了方法的可及性

相关工作与启发

  • vs OpenVLA:OpenVLA 直接从观测映射到动作,缺乏规划能力。CoT-VLA 通过子目标预测引入在线规划。
  • vs RT-2:RT-2 使用 VLM backbone 但同样无中间推理。CoT-VLA 展示了在 VLA 中显式引入推理步骤的价值。
  • vs SuSIE:SuSIE 也使用子目标图像引导策略,但使用分离的扩散模型生成子目标。CoT-VLA 在统一框架内实现端到端训练。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次在VLA中引入视觉CoT,思路自然且有效
  • 实验充分度: ⭐⭐⭐⭐ LIBERO四个子集全面评估,消融完整
  • 写作质量: ⭐⭐⭐⭐ 两阶段框架阐述清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 为VLA提供了新的设计范式,子目标预测+动作生成的分解思路有广泛应用前景

相关论文