Task-aware MoILE: Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning¶
会议: ACL 2025
arXiv: 2506.04595
代码: 无
领域: 机器人 / 持续学习
关键词: 具身持续学习, MoE-LoRA, SVD正交训练, 任务聚类, 灾难性遗忘
一句话总结¶
提出层次化具身持续学习设置(HEC),将 agent 学习分为高层指令和低层动作两级,并设计 Task-aware MoILE 方法——通过跨模态聚类识别任务、双路由器选择 LoRA 专家、SVD 正交训练保留旧知识,在 5 种增量学习场景中遗忘率降至 3.37%(vs 前 SOTA 7.44%)。
研究背景与动机¶
- 领域现状:具身智能的持续学习聚焦于按人类指令执行低层动作,忽视了高层规划的持续学习能力。随着 LLM 赋予 agent 更强的自主决策能力,需要同时持续学习高层指令(任务分解)和低层动作(具体执行)。
- 现有痛点:(a) 现有设置仅考虑低层动作的行为/环境增量,未涉及高层指令增量;(b) EWC、CAMA 等正则化方法遗忘率仍高(~10-11%);(c) 实际场景中无法获得 task ID,需自动识别任务类型。
- 核心矛盾:如何在不知道 task ID 的情况下,让多模态 agent 同时持续学习不同层次的技能而不遗忘?
- 本文要解决什么? 定义层次化持续学习设置 + 设计无 task ID 依赖的持续学习方法。
- 切入角度:用视觉-文本嵌入聚类替代 task ID,SVD 分解 LoRA 保护旧知识。
- 核心idea一句话:跨模态聚类识别任务 + 双路由 MoE-LoRA 选专家 + SVD 正交约束防遗忘。
方法详解¶
整体框架¶
输入为目标条件+场景图像,经 CLIP 编码获得视觉-文本嵌入。(1) CTC(跨模态任务聚类)将嵌入分配到最近聚类中心,输出任务嵌入 \(e_i\);(2) Token-level router 根据隐层输入 \(x\) 选 top-K 个 token-level LoRA 专家;Task-level router 根据任务嵌入 \(e\) 选 top-1 个 task-level LoRA 专家;(3) Incremental LoRA 对已训练的 LoRA 做 SVD,冻结主成分,正交训练残差部分。
关键设计¶
- 跨模态任务聚类(CTC):
- 做什么:无需 task ID,通过聚类自动判断输入属于哪类任务
- 核心思路:CLIP 编码图像+文本为统一嵌入 \(x^m\),k-means 聚类,每批动态更新聚类中心 \(c_j^{new} = c_j^{old} + \frac{\alpha}{|S_j^{batch}|}\sum(x^m_i - c_j^{old})\)
-
设计动机:真实场景无任务标注,需自动识别任务类型来路由专家
-
双路由 MoE-LoRA(Token-level + Task-level):
- 做什么:两种路由器共同选择 LoRA 专家
- 核心思路:\(\Delta Wx = \sum G_1(x)_i \cdot E_i(x) + \sum G_2(e)_i \cdot E_i^h(x)\),token-level 选 top-K 专家处理细粒度语义,task-level 选 top-1 专家区分高层/低层任务
-
设计动机:任务间有语义相似性(如 pick 和 place),需要不同粒度的路由
-
SVD 正交增量 LoRA(Incremental LoRA):
- 做什么:对旧任务训练过的 LoRA 参数做 SVD,冻结主成分,正交训练残差
- 核心思路:\(BA = U\Sigma V^T\),保留前 \(r\) 个奇异值对应的主成分(代表旧知识),新任务只在残差空间中正交训练
- 设计动机:直接在原始 LoRA 上继续训练会覆盖旧知识,SVD 分解+正交约束确保新旧知识互不干扰
损失函数 / 训练策略¶
标准 next-token prediction loss + 路由负载均衡 loss + SVD 正交约束 loss。
实验关键数据¶
主实验¶
| 方法 | LB (低层行为) AA↑ | LB FM↓ | HB (高层行为) AA↑ | HB FM↓ |
|---|---|---|---|---|
| Task-aware MoILE | 67.91 | 3.37 | 55.66 | 2.67 |
| InfLoRA | 65.61 | 7.44 | 54.28 | 5.67 |
| O-LoRA | 64.61 | 8.39 | 53.22 | 6.82 |
| MoELoRA | 63.35 | 10.25 | 51.60 | 7.68 |
| EWC | 62.44 | 11.49 | 51.55 | 10.83 |
消融实验¶
| 配置 | AA↑ | FM↓ | 说明 |
|---|---|---|---|
| Task-aware MoILE (完整) | 67.91 | 3.37 | 全部组件 |
| w/o CTC | ~65 | ~5 | 去掉任务聚类 |
| w/o SVD正交 | ~64 | ~8 | 去掉增量约束 |
| w/o Task-level路由 | ~66 | ~4 | 仅 token-level |
关键发现¶
- 遗忘率降低一半:FM 从 InfLoRA 的 7.44% 降到 3.37%,说明 SVD 正交训练非常有效
- 高层指令增量更难:所有方法在 HB/HE 上性能低于 LB/LE,高层规划的持续学习更具挑战
- 任务聚类可行:CTC 无需真实 task ID 即可有效路由,在真实场景部署有实际意义
- Hybrid Hierarchical 最难:跨层级增量(HH)是五种设置中最有挑战性的
亮点与洞察¶
- 层次化持续学习设置是新贡献:将具身持续学习从单纯低层动作扩展到高层指令+低层动作两级,更贴合 LLM 时代 agent 的实际需求。
- SVD 正交训练 LoRA:巧妙利用 LoRA 低秩结构,通过 SVD 分解+冻结+正交约束实现参数空间划分。可推广到任何基于 LoRA 的持续学习场景。
- 无 task ID 的任务识别:通过多模态嵌入聚类实现,比假设已知 task ID 的方法更实用。
局限性 / 可改进方向¶
- 评估环境为 ALFRED 仿真,真实物理机器人验证不足
- 聚类数需预设,如何自适应扩展未讨论
- 5 种设置的组合关系及难度梯度分析还可更深入
- 与 DRAE 等更复杂的终身学习框架的对比缺失
相关工作与启发¶
- vs InfLoRA:同为 LoRA 持续学习方法,但 InfLoRA 无任务感知路由,FM=7.44% vs 3.37%
- vs O-LoRA:O-LoRA 用正交约束但无 MoE 选择,本文在 MoE 框架下用 SVD 更精细
- vs EWC:正则化方法 FM > 10%,在复杂具身场景中效果有限
评分¶
- 新颖性: ⭐⭐⭐⭐ HEC 设置是新贡献,SVD-MoE-LoRA 组合有创意
- 实验充分度: ⭐⭐⭐⭐ 5 种设置 × 3 种 order × 多基线
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述系统
- 价值: ⭐⭐⭐⭐ 层次化持续学习设置有启发性,SVD 正交 LoRA 可复用