CoA-VLA: Improving Vision-Language-Action Models via Visual-Textual Chain-of-Affordance¶
会议: ICCV 2025
arXiv: 2412.20451
代码: 无
领域: Robotics / Vision-Language-Action
关键词: VLA, Chain-of-Affordance, 机器人操作, 推理增强, 扩散策略
一句话总结¶
提出 CoA-VLA,将四类机器人可供性(物体、抓取、空间、运动)组织为链式推理,通过视觉-文本协同注入模块融合到扩散策略网络中,显著提升 VLA 模型在多任务操作中的精度和泛化能力。
研究背景与动机¶
Vision-Language-Action (VLA) 模型已成为机器人策略学习的主流范式,但现有方法普遍依赖外部 LLM/VLM 做高层规划,模型本身缺乏自主推理能力。受 OpenAI O1 模型通过推理链提升复杂问题求解能力的启发,作者提出一个核心问题:机器人模型能否通过回顾先前观察并生成任务相关的推理来指导动作预测?
现有 VLA 的局限性在于: - 端到端策略学习缺少中间推理过程,难以应对复杂环境 - 对模糊指令(如"倒饮料")缺乏定位和交互对象的自主判断 - 面对视觉干扰和障碍物时泛化不足
方法详解¶
整体框架¶
CoA-VLA 基于 DiffusionVLA(Qwen2-VL + 扩散策略头)构建。核心思路是在动作预测前引入链式可供性推理(Chain-of-Affordance),将推理结果以文本和图像两种格式注入策略网络。整个流程为:观测 + 指令 → VLM 生成可供性推理 → 视觉-文本协同注入 → 扩散策略生成动作。
关键设计¶
-
四类可供性定义(Chain-of-Affordance):
- 物体可供性 \(z_{obj}\):识别目标物体及其在视野中的位置(语义定位 + 2D 边框),解决模糊指令下"操作什么"的问题
- 抓取可供性 \(z_{grasp}\):确定物体最适合抓取的部位,用 2D 关键点表示抓取位置,确保稳定安全的抓取
- 空间可供性 \(z_{spat}\):识别满足语言关系描述的空间坐标集合(如空闲放置区域),用离散 2D 坐标表示可行交互区域
- 运动可供性 \(z_{move}\):规划无碰撞运动轨迹,为机器人提供动态适应环境变化的路径
四类可供性形成序列依赖链:先识别"操作什么在哪里" → 再确定"怎么抓" → 然后"放在哪" → 最后"怎么走"。学习目标为中间语言输出映射 \(z: \mathcal{O} \times \mathcal{G} \rightarrow \mathcal{Z}\),动作条件生成为 \(a \sim p(a|\tau, g, z)\)。
-
视觉-文本协同注入模块(Visual-Textual Co-Injection):
- 文本可供性:利用自然语言编码可供性信息(如边框坐标、放置区域描述),通过 VLM 最后一层 embedding + MLP 层进行 token 化。为避免固定模板偏差,使用 ChatGPT 对描述进行多样化改写
- 视觉可供性:在历史观测帧上叠加像素对齐的视觉标注(边框、交互点、运动轨迹),通过预训练 ViT-Small 编码为 patch token。运动轨迹用细线低显著度渲染,关键交互点用高对比度半透明覆盖
- 融合机制:文本和视觉 token 经两层标准 Transformer 块处理后,通过 FiLM 条件层注入扩散模型,动态调制去噪过程。FiLM 层作为瓶颈,只提取最显著的可供性线索
-
动态可供性选择(Dynamic Affordance Selection):
- 实际执行中无需每步生成所有可供性(例如物体被抓起后无需再预测物体/抓取可供性)
- 利用本体感知信号(关节角度等)转换为单个 token 与视觉 token 拼接,由模型自适应选择当前时间步所需的可供性
- 在 Droid 大规模数据集上训练后,模型能根据状态智能选择,如夹爪半闭 + 腕部相机检测到物体时自动跳过物体/抓取可供性
数据生成管线¶
为避免可供性多样性上的过拟合,设计了自动化数据生成流程: - GPT-4o 生成场景描述并识别实体 - Grounding DINOv2 + SAM 联合生成物体边框(通过 IoU 精化确保对齐) - RoboPoint + GPT-4o 联合预测空间可供性点并聚类 - CoTracker 跟踪机器人夹爪运动轨迹
训练策略¶
预训练阶段使用 Droid 数据集(过滤无标注样本后剩 39K 轨迹)生成合成链式可供性数据,后训练阶段在 7 个真实任务的 692 条轨迹上进行。学习率 2e-5,VLM 参数冻结并使用 LoRA 微调,精调阶段学习率 2e-6 + 余弦衰减。
实验关键数据¶
主实验:真实机器人(Franka 7 任务多任务学习)¶
| 模型 | In-Distribution 平均成功率 | Visual Generalization 平均成功率 |
|---|---|---|
| Diffusion Policy | 33/77 (42.93%) | 3/63 (4.76%) |
| Octo | 34/77 (44.13%) | 12/63 (19.05%) |
| OpenVLA | 52/77 (54.89%) | 14/63 (22.22%) |
| DiffusionVLA | 59/77 (76.60%) | 28/63 (44.44%) |
| CoA-VLA | 64/77 (85.54%) | 36/63 (57.14%) |
仿真实验:LIBERO 基准¶
| 方法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| Diffusion Policy | 78.3% | 92.5% | 68.3% | 50.5% | 72.4% |
| Octo | 78.9% | 85.7% | 84.6% | 51.1% | 75.1% |
| OpenVLA | 84.7% | 88.4% | 79.2% | 53.7% | 76.5% |
| CoA-VLA | 85.3% | 93.1% | 85.8% | 55.0% | 79.8% |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| CoA-VLA (完整) | 79.8% (LIBERO 平均) | 所有可供性 + 协同注入 |
| 仅文本可供性 | 性能下降 | 缺少空间对齐的视觉线索 |
| 仅视觉可供性 | 性能下降 | 缺少语义推理能力 |
| 无动态选择 | 推理更慢、性能略降 | 冗余可供性增加计算开销 |
关键发现¶
- 在视觉泛化测试中,CoA-VLA 比 OpenVLA 提升 34.92%,表明可供性推理对环境变化的鲁棒性至关重要
- 空间可供性使 PlaceBread 任务在三种空间配置下均能成功放置面包,而 OpenVLA 和 DiffusionVLA 各只成功一种
- 运动可供性使机器人成功完成所有障碍物避让场景(花瓶绕行、桌面障碍导航)
亮点与洞察¶
- 将可供性概念与链式推理统一,四类可供性覆盖了操作任务中"什么、哪里、怎么抓、放哪、怎么走"的完整推理链
- 视觉-文本双模态注入机制优雅地融合了像素级空间信息和语义推理,FiLM 条件层设计高效
- 动态可供性选择基于本体感知进行自适应裁剪,在保持性能的同时减少推理开销
局限与展望¶
- 依赖 GPT-4o + Grounding DINO + SAM + CoTracker 等多个外部工具生成训练数据,管线复杂且成本较高
- 可供性链的四类类型是人工设计的,可能不能覆盖所有操作场景
- 真实机器人实验仅在 Franka 单臂平台上验证,缺乏灵巧手或双臂场景的评估
- 后训练数据量较小(692 条轨迹),大规模数据下的效果有待验证
相关工作与启发¶
- ECoT 和 CoT-VLA 也探索了 VLA 中的推理能力,但前者侧重任务分解,后者生成子目标,而 CoA-VLA 从可供性角度统一了推理体系
- TraceVLA 引入视觉轨迹增强 VLA 的时空感知,CoA-VLA 的视觉可供性概念与之互补
- 可供性数据的自动生成管线可推广到其他机器人学习场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 四类可供性 + 链式推理的框架设计新颖,视觉-文本协同注入有工程贡献
- 实验充分度: ⭐⭐⭐⭐ 真实机器人 + 仿真双重验证,7 个真实任务覆盖面广
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图示详尽,可供性概念可视化直观
- 价值: ⭐⭐⭐⭐ 提出了一种将推理能力融入 VLA 的可行路径,对机器人基础模型设计有启发
相关论文¶
- [ICCV 2025] Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
- [ICCV 2025] CompCap: Improving Multimodal Large Language Models with Composite Captions
- [NeurIPS 2025] ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation
- [ICCV 2025] FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models
- [ICCV 2025] Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models