Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols¶

会议: CVPR 2026
arXiv: 2512.02787
代码: 项目主页
领域: Robotics / 机器人操作
关键词: 失败诊断, 视觉语言模型, 机器人操作, 视觉符号, VLA

一句话总结¶

提出 ViFailback 框架，利用显式视觉符号（箭头、准星等）高效标注真实世界机器人操作失败数据，构建 58,128 条 VQA 对的大规模数据集，并微调得到 ViFailback-8B 模型，在真实机器人实验中结合 VLA 模型实现失败恢复，平均成功率提升 22.2%。

研究背景与动机¶

Vision-Language-Action (VLA) 模型近年在机器人操作领域取得了显著进展，但在部署到真实世界时不可避免地会遇到分布外（OOD）场景，导致动作失败。现有方法面临几个核心问题：

失败数据稀缺：现有失败数据集大多在仿真环境中通过注入扰动程序化生成，受 sim-to-real gap 限制，难以迁移到真实场景
标注效率低：真实世界失败数据的标注需要大量人工文本描述，尤其是任务规划失败、失败原因等抽象类别
反馈形式局限：现有方法的修正反馈主要是文本形式，但当前 VLA 模型的指令跟随能力有限，纯文本指导难以有效指导机器人恢复

本文核心洞察：在遥操作数据采集或策略执行过程中，必然会产生大量失败数据，关键在于如何简单高效地标注这些数据并利用它们。

方法详解¶

整体框架¶

ViFailback 框架包含三个核心部分： 1. 数据标注框架：基于视觉符号的高效半自动标注流水线 2. ViFailback 数据集与基准：58,128 条 VQA 对 + ViFailback-Bench 评测基准 3. ViFailback-8B 模型：微调 Qwen3-VL-8B，在 VLA 执行时作为外部监督者进行失败诊断与修正

关键设计¶

视觉符号系统（7 种符号，3 大类）：
- 运动符号：彩色直箭头（红=前后、绿=左右、蓝=上下表示 3D 空间运动）、半圆箭头（表示末端执行器旋转方向）
- 空间关系符号：双准星（用虚线连接，表示两个目标需要对齐）、准星（标注目标物体或区域）
- 状态符号：ON/OFF 标签（末端执行器开/关状态）、禁止图标（末端执行器应停止）、倒带图标（回退到先前状态）
- 设计动机：标注者只需用鼠标在视频帧上绘制这些符号，VLM 就能自动生成所需的文本标注，大幅降低标注成本
细粒度任务定义：将失败分析分解为两大组件：
- 失败诊断（5 项）：失败检测、关键帧定位、子任务定位、失败类型识别（任务规划/夹爪位姿/夹爪状态/人为干预 4 大类）、失败原因推理
- 修正动作指导（3 项）：低级文本指导（具体运动方向）、高级文本指导（任务计划重整）、视觉指导（在关键帧上叠加视觉符号）
三阶段标注流水线：
- 阶段 1：基础语义信息填写（通过 UI 滑块和按钮完成失败诊断标注）
- 阶段 2：基于选定关键帧，标注者选择修正动作类别并绘制视觉符号
- 阶段 3：用 Qwen3-VL-235B 结合所有标注信息和视觉符号自动生成高级描述，再人工验证和修正
ViFailback-Bench 基准：包含 500 条轨迹、22 个任务
- Lite 版：闭合式 VQA，评估核心诊断能力和基于给定关键帧的低级修正
- Hard 版：开放式 VQA，要求模型先检测和定位失败，再以 Chain-of-Thought 格式输出指导

损失函数 / 训练策略¶

使用 LoRA 微调 Qwen3-VL-8B（LoRA rank=32，α=64）
仅训练 1 个 epoch，学习率 1e-5
使用 DeepSpeed ZeRO-2 阶段训练
同时解冻 LLM 骨干和适配器参数
4 × NVIDIA Hopper GPU

实验关键数据¶

主实验（ViFailback-Bench 评测）¶

模型	Lite (%)	Hard (%)	平均 (%)
Gemini-2.5-Pro	54.64	32.45	44.54
GPT-4o	48.21	40.00	44.47
Qwen2.5-VL-72B	50.61	36.56	44.21
Qwen3-VL-32B	47.79	35.23	42.07
RoboBrain2.0-32B	49.92	29.22	40.50
ViFailback-8B (本文)	最优	最优	最优

ViFailback-8B 在 Lite 和 Hard 两个设置上均显著超越所有开源和闭源模型。

真实世界机器人实验¶

配置	平均成功率提升
基线 VLA (无 ViFailback-8B)	基准
VLA + ViFailback-8B 监督	+22.2%

数据集规模¶

指标	数值
真实轨迹数	5,202
VQA 对数	58,128
覆盖任务数	100
失败类型	4 大类
成功轨迹 / 失败轨迹	657 / 4,545

关键发现¶

即使是 Gemini-2.5-Pro 这样的顶级闭源模型，在机器人失败诊断和修正任务上表现也有限（仅 44.54%），说明该领域需要专门的数据和训练
具身 VLM（如 RoboBrain2.0、Cosmos-Reason1）在该基准上并不优于通用 VLM，说明具身知识不等同于失败理解能力
视觉符号不仅能辅助标注，还能作为 VLA 模型的运行时修正信号，比纯文本指令更有效

亮点与洞察¶

视觉符号设计精巧：用颜色编码 3D 方向、用简单几何符号表达复杂语义，既降低了标注门槛，又能被 VLM 学习生成
真实世界数据优先：没有走仿真生成的路线，而是直接从遥操作和策略滚出中收集真实失败数据，更具实际价值
闭环验证：不仅训练了诊断模型，还在真实机器人上验证了 VLA + 外部监督者的失败恢复范式
标注成本低：利用视觉符号 + VLM 辅助，实现了半自动化标注，使大规模真实失败数据的构建成为可能

局限性 / 可改进方向¶

视觉符号系统目前仅覆盖 4 大类失败，更复杂的失败模式（如多步推理失败）可能需要扩展符号集
ViFailback-8B 的监督频率固定（每 6 个动作块查询一次），自适应触发机制可能更高效
数据集主要基于 ALOHA 双臂平台，泛化到其他机器人形态需要更多验证
标注流水线虽然高效，但仍需人工参与，完全自动化标注是未来方向

评分¶

新颖性: ⭐⭐⭐⭐ — 视觉符号用于失败标注和修正是新颖的思路
实验充分度: ⭐⭐⭐⭐⭐ — 从数据集构建到模型评测到真实机器人验证，链条完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，但符号系统部分可以更简洁
价值: ⭐⭐⭐⭐⭐ — 为机器人从失败中学习提供了完整的框架和数据基础