Policy Compatible Skill Incremental Learning via Lazy Learning Interface¶
会议: NeurIPS 2025
arXiv: 2509.20612
作者: Daehee Lee (SKKU), Dongsu Lee (UT Austin), TaeYoon Kwack (SKKU), Wonje Choi (SKKU), Honguk Woo (SKKU)
代码: GitHub
领域: human_understanding
关键词: 技能增量学习, 层次化策略, 持续学习, 惰性学习, 技能-策略兼容性, 具身智能
一句话总结¶
提出SIL-C框架,通过双向惰性学习接口(bilateral lazy learning interface)实现技能增量学习中的技能-策略兼容性,使增量更新的技能能直接提升下游策略性能而无需重训练或结构调整。
研究背景与动机¶
问题背景¶
终身具身智能体需要持续从数据流中获取新技能并整合到技能库,同时利用已有技能解决下游任务。技能增量学习(Skill Incremental Learning, SIL)支持智能体逐步扩展和精化技能集。层次化策略中,高层策略选择子任务(subtask),低层技能解码器(skill decoder)执行具体动作,两者通过共享潜空间连接。
已有工作的不足¶
- 技能更新导致策略失效:当技能库随时间演化时,依赖这些技能的下游策略可能因技能接口变化而失效,限制了可复用性和泛化性
- Type I方法(BUDS/PTGM + 持续学习):简单技能追加方案在技能遗忘和兼容性方面表现不足,微调(FT)导致严重遗忘,经验回放(ER)和适配器追加(AA)只能部分缓解
- Type II方法(语义标签驱动):依赖预定义的语义技能标签,限制了可扩展性,且BWT往往接近零——仅维持初始性能而不能从新技能中获益
- 同步更新假设:现有SIL方法通常假设技能库和下游策略同步更新,无法支持去耦合的独立演化
核心动机¶
定义并解决SIL中的两种兼容性问题:(1) 前向技能兼容性(FwSC)——新增技能可被未来策略有效利用;(2) 后向技能兼容性(BwSC)——已有策略无需重训练即可使用新增/更新的技能并提升性能。
方法详解¶
整体框架¶
SIL-C由三个核心组件构成:高层策略 \(\pi_h^\tau\) 选择子任务 \(z_h\)、低层技能解码器 \(\pi_l^p\) 执行动作、以及连接两者的惰性学习接口 \(\mathcal{I}\)。执行流程为:
双向惰性学习接口¶
接口 \(\mathcal{I}\) 跨越两个空间操作:子任务空间 \(\mathcal{X}_h\) 和技能空间 \(\mathcal{X}_l\),通过基于实例的分类器实现轨迹分布相似度匹配。
实例分类器:每个标签 \(c\) 由多模态高斯原型 \(\chi_c = \{(\mu_{c,k}, \Sigma_{c,k})\}_{k=1}^{K_c}\) 建模。给定查询 \(x\),计算Mahalanobis距离:
支持两种操作:(i) 分类——最近原型选择;(ii) 验证——基于卡方分位数的OOD检测(阈值为99%分位数)。
技能空间更新:每个SIL阶段 \(p\),对新数据集 \(\mathcal{D}_p\) 执行无监督技能聚类 -> K-means子聚类 -> 计算高斯原型,存入技能记忆 \(\mathcal{X}_l^{s,p}\) 和 \(\mathcal{X}_l^{g,p}\)。
子任务空间更新:对每个下游任务 \(\tau\) 的专家演示 \(\mathcal{D}_\tau\) 执行类似流程,生成子任务原型存入 \(\mathcal{X}_h^{s,\tau}\)。
推理时的技能验证与挂钩¶
任务侧模块 \(\Psi_h^s\) 根据当前状态 \(s\) 预测子目标 \(g\);技能侧模块 \(\Psi_l^g\) 验证当前技能 \(z_h\) 能否达到该子目标。若验证通过则直接执行 \(z_l = z_h\);若失败则启动skill hooking,从候选技能集中选择基于轨迹相似度最合适的替代技能 \(z_l = \Psi_l^s(s; \mathcal{Z}')\)。
策略学习集成¶
利用基于能量的先验(energy-based prior)指导高层策略学习:给定状态 \(s\),技能解码器评估所有候选技能对,选择解码动作最接近专家动作的子任务标签,通过行为克隆优化。
实验关键数据¶
实验1:Kitchen环境技能-策略兼容性¶
在Franka Kitchen环境中评估Emergent SIL和Explicit SIL两种场景,涉及4个SIL阶段和24个下游任务。
| 方法 | 类型 | 场景 | BwSC BWT | BwSC AUC | Overall AUC | FwSC AUC | Final FWT |
|---|---|---|---|---|---|---|---|
| PTGM+FT | I | Emergent | -36.9% | 17.3% | 24.1% | 36.2% | 24.7% |
| PTGM+ER | I | Emergent | -19.7% | 32.1% | 42.5% | 54.0% | 57.7% |
| PTGM+AA | I | Emergent | +2.6% | 46.9% | 58.2% | 66.1% | 83.6% |
| iSCIL* | II | Emergent | +0.5% | 55.5% | 55.7% | 55.8% | 56.9% |
| iManip* | II | Emergent | +18.5% | 67.8% | 70.3% | 68.7% | 77.4% |
| SIL-C | III | Emergent | +18.6% | 66.8% | 71.8% | 71.9% | 87.2% |
| PTGM+AA | I | Explicit | +0.0% | 14.6% | 36.7% | 53.3% | 79.8% |
| SIL-C | III | Explicit | +42.5% | 46.5% | 54.1% | 51.9% | 80.6% |
关键发现:SIL-C在Explicit SIL场景下BwSC BWT达到+42.5%,远超所有基线(最高仅+0.0%),证明接口可有效利用新增技能提升旧策略性能。
实验2:Few-shot模仿学习¶
评估SIL-C在有限专家演示下的样本效率,Kitchen Emergent SIL场景。
| 方法 | Shots | Ratio | Initial FWT | BwSC AUC | Overall AUC | Final FWT |
|---|---|---|---|---|---|---|
| PTGM+AA | 5 | 100% | 40.5% | 40.8% | 49.1% | 67.6% |
| SIL-C | 5 | 100% | 47.4% | 55.9% | 62.4% | 75.8% |
| PTGM+AA | 1 | 100% | 26.5% | 27.7% | 31.7% | 37.8% |
| SIL-C | 1 | 100% | 43.1% | 52.0% | 56.5% | 65.7% |
| PTGM+AA | 1 | 20% | 25.7% | 23.5% | 27.0% | 30.5% |
| SIL-C | 1 | 20% | 37.3% | 46.4% | 49.7% | 58.5% |
关键发现:在极端few-shot设定(1-shot, 20% transitions)下,SIL-C的BwSC AUC(46.4%)几乎是基线(23.5%)的两倍,展现了强大的低数据泛化能力。
鲁棒性实验¶
在输入噪声从x1增加到x5时,SIL-C在x5噪声下仍保持+4.3% BWT,而PTGM+AA降至-1.2%。在x3噪声下,Final FWT差距从初始的-0.2%扩大到+12.4%,说明技能库越大时SIL-C的优势越显著。
亮点¶
- 首次系统定义SIL兼容性:明确提出前向(FwSC)和后向(BwSC)两种技能-策略兼容性概念,为持续学习中的层次化策略提供清晰问题框架
- 惰性学习接口设计精巧:通过将对齐问题转化为基于实例的分类问题,将决策推迟到推理时,使技能和策略可独立演化而无需同步更新
- 实验全面且强有力:覆盖两种环境(Kitchen/Meta-World)、两种SIL场景(Emergent/Explicit)、多种基线配置,Explicit SIL下BwSC BWT达+42.5%远超所有基线
- 模块化设计:SIL-C可作为插件应用于不同基线(BUDS/PTGM)和不同SIL算法(FT/ER/AA),具有良好的通用性
局限与展望¶
- 仿真环境局限:仅在Kitchen和Meta-World中验证,未涉及真实机器人场景,状态表示相对简洁
- 依赖无监督聚类质量:技能和子任务空间的分辨率由聚类算法决定,噪声或多样性大的技能分布可能影响原型质量
- 尚未处理技能删除:当前框架基于append-only设计,不支持技能的移除或合并
- 高斯原型的表达能力:对角协方差矩阵假设可能无法捕捉复杂的技能分布
- 缺乏在线交互学习:需要离线专家演示,未探索在线自主探索场景
与相关工作的对比¶
- BUDS/PTGM(Type I):提供技能聚类和解码器架构但不保证兼容性,SIL-C在此基础上添加接口层,BwSC BWT从+2.6%提升至+18.6%
- iSCIL(Type II):基于原型的技能检索,依赖预定义语义标签,BWT仅+0.5%(几乎不变),无法从新技能中获益
- iManip(Type II):指令驱动的时序回放和模型扩展,BWT达+18.5%但同样依赖语义标签,SIL-C无需标签即达到可比性能
- 持续预训练方法:如AdapterAppend可保持前向兼容但不能改善后向兼容,SIL-C通过推理时的动态映射解决后向兼容
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统定义并解决SIL中的技能-策略兼容性问题,惰性学习接口设计新颖
- 实验充分度: ⭐⭐⭐⭐ — 两个环境多种场景,消融实验、鲁棒性、few-shot、分辨率分析均完整
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,图示直观,实验组织系统化
- 价值: ⭐⭐⭐⭐ — 解决了层次化持续学习中的实际痛点,模块化设计有工程价值,但仿真环境限制了直接应用
相关论文¶
- [NeurIPS 2025] Learning Skill-Attributes for Transferable Assessment in Video
- [ICCV 2025] External Knowledge Injection for CLIP-Based Class-Incremental Learning
- [NeurIPS 2025] Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control
- [CVPR 2025] GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill
- [ICML 2025] Doubly Robust Fusion of Many Treatments for Policy Learning