CycleManip: Enabling Cyclic Task Manipulation via Effective Historical Perception and Understanding¶

会议: CVPR 2026
arXiv: 2512.01022
代码: https://isee-laboratory.github.io/CycleManip/
领域: LLM Agent
关键词: 循环操作, 机器人操作, 模仿学习, 历史感知, 多任务学习

一句话总结¶

CycleManip 首次系统性地解决机器人循环操作任务（如摇瓶子N次），通过成本感知的历史采样策略增强历史感知，配合多任务学习辅助目标提升历史理解，以端到端模仿学习方式实现循环次数可控的操作。

给定用户指令和机器人观测，成本感知采样策略对高低开销观测采用不同采样，所有观测和语言指令编码为扩散条件预测动作。同时观测特征用于预测任务进度（辅助任务），增强模型对循环阶段的理解。

成本感知历史采样策略:
- 功能：在低计算开销下扩展观察范围
- 核心思路：将观测分为低开销（末端执行器位姿差分）和高开销（点云/RGB）两类。低开销观测全量密集采样（计算几乎免费），高开销观测用启发式帧采样——一半用二分采样覆盖全历史，一半用指数采样保留近期细节（\(t-2^k\)）。
- 设计动机：末端执行器的循环特性比关节位置更明显且更容易建模；使用位姿差分而非绝对位置避免了位置偏差。
多任务学习进度预测:
- 功能：让模型隐式学习循环阶段特征
- 核心思路：引入辅助任务预测当前进度 \(b_t\)（当前帧号/最大帧号，离散化为10类分类问题）。通过多层MLP融合后单层MLP预测进度。总损失 = MSE动作损失 + CE进度损失。
- 设计动机：纯模仿学习的监督信号在每个循环中都相同（继续执行），无法让模型区分不同阶段。进度预测迫使模型学习区分性特征。
CycleManip基准:
- 功能：提供循环任务评估平台
- 核心思路：基于RoboTwin 2.0构建8个循环操作任务（锤钉子、摇瓶子、切胡萝卜等），每任务200条演示轨迹，循环次数1-8次。自动评估仅当操作成功且循环次数正确时才判定为成功。
- 设计动机：无标准化基准阻碍了循环任务研究的发展。

\(\mathcal{L} = \alpha \cdot \text{MSE}(a_t, a_t^*) + \beta \cdot \text{CE}(b_t, b_t^*)\)，使用扩散策略框架。

任务	CycleManip成功率	Baseline成功率	循环准确率
锤钉子	高	低	高
摇瓶子	高	极低	高
切胡萝卜	中高	低	中高