CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models¶

会议: CVPR 2025
arXiv: 2503.22020
代码: https://cot-vla.github.io/
作者: Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin
机构: NVIDIA, Stanford University, MIT
领域: LLM推理
关键词: VLA, Chain-of-Thought, 视觉推理, 机器人操作, 子目标预测

一句话总结¶

提出 CoT-VLA，将视觉思维链推理引入视觉-语言-动作模型，通过两阶段推理——先预测子目标图像再生成动作序列——结合混合注意力和动作分块策略，在 LIBERO 基准上实现 81.13% 平均成功率，显著超越现有方法。

研究背景与动机¶

领域现状：视觉-语言-动作模型（VLA）旨在利用大规模预训练的视觉-语言模型（VLM）直接从视觉观测和语言指令生成机器人动作。现有 VLA 如 OpenVLA、RT-2 等已展示了从互联网级预训练中获益的潜力，但在长 horizon 和复杂推理任务上表现仍有限。

现有痛点：当前 VLA 模型采用直接的"观测→动作"映射，缺乏中间推理步骤。这种端到端映射在面对需要多步规划的任务时容易失败——模型无法将复杂任务分解为可管理的子步骤。此外，现有方法训练数据局限于带动作标注的机器人数据集，无法利用大量无标注的人类活动视频。

核心矛盾：人类在执行复杂操作时会自然地进行视觉规划——先想象下一步的目标状态，再执行具体动作。但现有 VLA 缺乏这种"先规划后执行"的能力。如何在 VLA 中引入视觉层面的思维链推理，同时保持模型的端到端特性，是一个未解决的问题。

切入角度：借鉴 CoT 在 LLM 中的成功经验，将其推广到视觉-动作领域。关键观察是：子目标图像可以作为视觉领域的"中间推理步骤"，它既为动作生成提供了明确的目标导向，又可通过海量无标注视频进行预训练。

核心idea：CoT-VLA 将机器人动作生成分解为两阶段推理：（1）给定当前观测和语言指令，先预测未来的子目标图像；（2）以子目标图像为条件，生成到达该目标的动作序列。通过统一的多模态模型 VILA-U 实现图像生成和动作预测的端到端框架。

方法详解¶

整体框架¶

CoT-VLA 构建于统一多模态基础模型 VILA-U 之上，采用两阶段推理范式：Phase 1 接收当前图像观测和语言指令，通过自回归方式生成子目标图像 token；Phase 2 以当前观测、语言指令和预测的子目标图像为条件，生成动作序列。整个过程在单一模型内完成，共享权重。

关键设计¶

视觉思维链推理（Visual Chain-of-Thought）：
- 功能：将动作生成过程分解为"子目标预测 + 动作生成"两阶段
- 核心思路：Phase 1 使用当前观测图像（256×256）通过残差量化编码为 16×16×4 = 1024 个离散 token，模型自回归地预测未来 0.5-1 秒后的子目标图像 token；Phase 2 将预测的子目标图像 token 与当前观测拼接，生成一组动作 chunk
- 设计动机：子目标图像提供了比语言指令更精确的目标描述，尤其在空间关系复杂的任务中。Ground-truth 子目标图像可以在 OOD 任务上将成功率提高 40%，验证了视觉目标对动作生成的关键导向作用
混合注意力机制（Hybrid Attention）：
- 功能：为不同模态使用不同的注意力模式
- 核心思路：图像 token 和文本 token 使用因果注意力（causal attention），保持自回归生成的一致性；动作 token 之间使用全注意力（full attention），允许动作序列内部的双向信息交互
- 设计动机：动作预测本质上是一个序列到序列的回归任务，不同于文本/图像的自回归生成。全注意力让每个动作 token 都能参考序列中其他动作 token，提高动作序列的时间一致性
动作分块与离散化（Action Chunking）：
- 功能：模型一次预测 10 个时间步的动作序列
- 核心思路：每个动作由 7 个 token 表示（对应机器人 7 自由度），每个 token 通过 256 个离散 bin 量化。一个 chunk 共 70 个 token
- 设计动机：分块预测减少了自回归循环次数，提升推理效率；同时 chunk 内的动作保持时间连贯性
无标注视频预训练：
- 功能：利用 EPIC-KITCHENS 和 Something-Something V2 等人类活动视频进行预训练
- 核心思路：从视频中采样帧对作为"当前观测-子目标图像"对，训练模型预测未来帧，无需动作标注
- 设计动机：获取大量无费力标注的训练数据，学习视觉世界的物理规律和物体交互模式

损失函数 / 训练策略¶

预训练阶段：在无标注视频上训练子目标预测能力，使用 12 个 A100 GPU 节点，总计约 11K A100 GPU 小时
微调阶段：在带动作标注的机器人数据上微调整个模型
动作离散化：每个动作维度均匀量化为 256 个 bin
图像编码：256×256 图像通过残差量化编码为 16×16 spatial × 4 codebook depth = 1024 个 token

实验关键数据¶

主实验：LIBERO 基准测试¶

方法	平均	Spatial	Object	Goal	Long
Diffusion Policy	72.4%	78.3%	92.5%	68.3%	50.5%
OpenVLA	76.5%	84.7%	88.4%	79.2%	53.7%
π₀ (flow matching)	79.2%	86.0%	90.3%	82.5%	58.0%
CoT-VLA-7B	81.13%	87.5%	91.6%	87.6%	69.0%

CoT-VLA 在所有四个任务套件上均取得最优或接近最优的结果，尤其在 Long-horizon 任务上提升最大（+15.3% vs OpenVLA），验证了视觉思维链在复杂长序列任务中的优势。

消融实验¶

配置	LIBERO 平均	相对变化
CoT-VLA (完整)	81.13%	—
w/o 动作分块 (chunk=1)	78.2%	-2.9%
w/o 混合注意力 (全因果)	79.8%	-1.3%
w/o CoT (直接动作预测)	75.5%	-5.6%
w/o 视频预训练	53.7%	-27.4%

预训练效果¶

无预训练基线：53.7% 平均成功率
有视频预训练：78.8% 平均成功率
相对提升 46.7%，证明无标注视频预训练对 VLA 的巨大贡献

子目标图像质量分析¶

使用 ground-truth 子目标图像替换预测子目标：OOD 任务成功率提升约 40%
表明当前子目标预测质量仍有提升空间，更好的视觉生成能力将直接转化为动作性能提升

关键发现¶

CoT 推理是最重要的组件：移除 CoT（直接动作预测）导致 5.6% 的性能下降，远大于其他消融
Long-horizon 任务受益最大：CoT-VLA 在 LIBERO-Long 上比 OpenVLA 提升 15.3 个百分点
预训练效果惊人：视频预训练带来 46.7% 的相对提升，揭示了无标注视频数据的巨大潜力
推理速度权衡：需要生成 256 个子目标图像 token，推理速度约慢 7 倍

亮点与洞察¶

视觉 CoT 是自然延伸：将 CoT 从文本推理推广到视觉规划是非常自然的迁移——机器人在动作执行前先"想象"目标状态，与人类的空间规划能力对齐。
子目标作为可解释瓶颈：预测的子目标图像提供了模型决策过程的可视化解释，有助于调试和人机交互。
无标注视频的杠杆效应：通过视觉 CoT 框架，大量无标注视频可以直接用于训练，突破了机器人数据稀缺的瓶颈。

局限与展望¶

推理延迟问题：生成 256 个子目标图像 token 导致约 7× 的推理减速，对实时控制任务不够友好
子目标预测精度：当前预测的子目标与真实目标仍有差距（GT 目标可带来额外 40% OOD 提升）
单一子目标局限：当前只预测一步子目标，对于非常长的 horizon 任务可能不够
计算成本高：11K A100 GPU 小时的预训练成本限制了方法的可及性

评分¶

新颖性: ⭐⭐⭐⭐ 首次在VLA中引入视觉CoT，思路自然且有效
实验充分度: ⭐⭐⭐⭐ LIBERO四个子集全面评估，消融完整
写作质量: ⭐⭐⭐⭐ 两阶段框架阐述清晰，图示直观
价值: ⭐⭐⭐⭐ 为VLA提供了新的设计范式，子目标预测+动作生成的分解思路有广泛应用前景