跳转至

Task-aware MoILE: Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning

会议: ACL 2025
arXiv: 2506.04595
代码: 无
领域: 机器人 / 持续学习
关键词: 具身持续学习, MoE-LoRA, SVD正交训练, 任务聚类, 灾难性遗忘

一句话总结

提出层次化具身持续学习设置(HEC),将 agent 学习分为高层指令和低层动作两级,并设计 Task-aware MoILE 方法——通过跨模态聚类识别任务、双路由器选择 LoRA 专家、SVD 正交训练保留旧知识,在 5 种增量学习场景中遗忘率降至 3.37%(vs 前 SOTA 7.44%)。

研究背景与动机

  1. 领域现状:具身智能的持续学习聚焦于按人类指令执行低层动作,忽视了高层规划的持续学习能力。随着 LLM 赋予 agent 更强的自主决策能力,需要同时持续学习高层指令(任务分解)和低层动作(具体执行)。
  2. 现有痛点:(a) 现有设置仅考虑低层动作的行为/环境增量,未涉及高层指令增量;(b) EWC、CAMA 等正则化方法遗忘率仍高(~10-11%);(c) 实际场景中无法获得 task ID,需自动识别任务类型。
  3. 核心矛盾:如何在不知道 task ID 的情况下,让多模态 agent 同时持续学习不同层次的技能而不遗忘?
  4. 本文要解决什么? 定义层次化持续学习设置 + 设计无 task ID 依赖的持续学习方法。
  5. 切入角度:用视觉-文本嵌入聚类替代 task ID,SVD 分解 LoRA 保护旧知识。
  6. 核心idea一句话:跨模态聚类识别任务 + 双路由 MoE-LoRA 选专家 + SVD 正交约束防遗忘。

方法详解

整体框架

输入为目标条件+场景图像,经 CLIP 编码获得视觉-文本嵌入。(1) CTC(跨模态任务聚类)将嵌入分配到最近聚类中心,输出任务嵌入 \(e_i\);(2) Token-level router 根据隐层输入 \(x\) 选 top-K 个 token-level LoRA 专家;Task-level router 根据任务嵌入 \(e\) 选 top-1 个 task-level LoRA 专家;(3) Incremental LoRA 对已训练的 LoRA 做 SVD,冻结主成分,正交训练残差部分。

关键设计

  1. 跨模态任务聚类(CTC):
  2. 做什么:无需 task ID,通过聚类自动判断输入属于哪类任务
  3. 核心思路:CLIP 编码图像+文本为统一嵌入 \(x^m\),k-means 聚类,每批动态更新聚类中心 \(c_j^{new} = c_j^{old} + \frac{\alpha}{|S_j^{batch}|}\sum(x^m_i - c_j^{old})\)
  4. 设计动机:真实场景无任务标注,需自动识别任务类型来路由专家

  5. 双路由 MoE-LoRA(Token-level + Task-level):

  6. 做什么:两种路由器共同选择 LoRA 专家
  7. 核心思路:\(\Delta Wx = \sum G_1(x)_i \cdot E_i(x) + \sum G_2(e)_i \cdot E_i^h(x)\),token-level 选 top-K 专家处理细粒度语义,task-level 选 top-1 专家区分高层/低层任务
  8. 设计动机:任务间有语义相似性(如 pick 和 place),需要不同粒度的路由

  9. SVD 正交增量 LoRA(Incremental LoRA):

  10. 做什么:对旧任务训练过的 LoRA 参数做 SVD,冻结主成分,正交训练残差
  11. 核心思路:\(BA = U\Sigma V^T\),保留前 \(r\) 个奇异值对应的主成分(代表旧知识),新任务只在残差空间中正交训练
  12. 设计动机:直接在原始 LoRA 上继续训练会覆盖旧知识,SVD 分解+正交约束确保新旧知识互不干扰

损失函数 / 训练策略

标准 next-token prediction loss + 路由负载均衡 loss + SVD 正交约束 loss。

实验关键数据

主实验

方法 LB (低层行为) AA↑ LB FM↓ HB (高层行为) AA↑ HB FM↓
Task-aware MoILE 67.91 3.37 55.66 2.67
InfLoRA 65.61 7.44 54.28 5.67
O-LoRA 64.61 8.39 53.22 6.82
MoELoRA 63.35 10.25 51.60 7.68
EWC 62.44 11.49 51.55 10.83

消融实验

配置 AA↑ FM↓ 说明
Task-aware MoILE (完整) 67.91 3.37 全部组件
w/o CTC ~65 ~5 去掉任务聚类
w/o SVD正交 ~64 ~8 去掉增量约束
w/o Task-level路由 ~66 ~4 仅 token-level

关键发现

  • 遗忘率降低一半:FM 从 InfLoRA 的 7.44% 降到 3.37%,说明 SVD 正交训练非常有效
  • 高层指令增量更难:所有方法在 HB/HE 上性能低于 LB/LE,高层规划的持续学习更具挑战
  • 任务聚类可行:CTC 无需真实 task ID 即可有效路由,在真实场景部署有实际意义
  • Hybrid Hierarchical 最难:跨层级增量(HH)是五种设置中最有挑战性的

亮点与洞察

  • 层次化持续学习设置是新贡献:将具身持续学习从单纯低层动作扩展到高层指令+低层动作两级,更贴合 LLM 时代 agent 的实际需求。
  • SVD 正交训练 LoRA:巧妙利用 LoRA 低秩结构,通过 SVD 分解+冻结+正交约束实现参数空间划分。可推广到任何基于 LoRA 的持续学习场景。
  • 无 task ID 的任务识别:通过多模态嵌入聚类实现,比假设已知 task ID 的方法更实用。

局限性 / 可改进方向

  • 评估环境为 ALFRED 仿真,真实物理机器人验证不足
  • 聚类数需预设,如何自适应扩展未讨论
  • 5 种设置的组合关系及难度梯度分析还可更深入
  • 与 DRAE 等更复杂的终身学习框架的对比缺失

相关工作与启发

  • vs InfLoRA:同为 LoRA 持续学习方法,但 InfLoRA 无任务感知路由,FM=7.44% vs 3.37%
  • vs O-LoRA:O-LoRA 用正交约束但无 MoE 选择,本文在 MoE 框架下用 SVD 更精细
  • vs EWC:正则化方法 FM > 10%,在复杂具身场景中效果有限

评分

  • 新颖性: ⭐⭐⭐⭐ HEC 设置是新贡献,SVD-MoE-LoRA 组合有创意
  • 实验充分度: ⭐⭐⭐⭐ 5 种设置 × 3 种 order × 多基线
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述系统
  • 价值: ⭐⭐⭐⭐ 层次化持续学习设置有启发性,SVD 正交 LoRA 可复用