Task-aware MoILE: Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning¶

会议: ACL 2025
arXiv: 2506.04595
代码: 无
领域: 机器人 / 持续学习
关键词: 具身持续学习, MoE-LoRA, SVD正交训练, 任务聚类, 灾难性遗忘

一句话总结¶

提出层次化具身持续学习设置（HEC），将 agent 学习分为高层指令和低层动作两级，并设计 Task-aware MoILE 方法——通过跨模态聚类识别任务、双路由器选择 LoRA 专家、SVD 正交训练保留旧知识，在 5 种增量学习场景中遗忘率降至 3.37%（vs 前 SOTA 7.44%）。

研究背景与动机¶

领域现状：具身智能的持续学习聚焦于按人类指令执行低层动作，忽视了高层规划的持续学习能力。随着 LLM 赋予 agent 更强的自主决策能力，需要同时持续学习高层指令（任务分解）和低层动作（具体执行）。
现有痛点：(a) 现有设置仅考虑低层动作的行为/环境增量，未涉及高层指令增量；(b) EWC、CAMA 等正则化方法遗忘率仍高（~10-11%）；(c) 实际场景中无法获得 task ID，需自动识别任务类型。
核心矛盾：如何在不知道 task ID 的情况下，让多模态 agent 同时持续学习不同层次的技能而不遗忘？
本文要解决什么？ 定义层次化持续学习设置 + 设计无 task ID 依赖的持续学习方法。
切入角度：用视觉-文本嵌入聚类替代 task ID，SVD 分解 LoRA 保护旧知识。
核心idea一句话：跨模态聚类识别任务 + 双路由 MoE-LoRA 选专家 + SVD 正交约束防遗忘。

方法详解¶

整体框架¶

输入为目标条件+场景图像，经 CLIP 编码获得视觉-文本嵌入。(1) CTC（跨模态任务聚类）将嵌入分配到最近聚类中心，输出任务嵌入 \(e_i\)；(2) Token-level router 根据隐层输入 \(x\) 选 top-K 个 token-level LoRA 专家；Task-level router 根据任务嵌入 \(e\) 选 top-1 个 task-level LoRA 专家；(3) Incremental LoRA 对已训练的 LoRA 做 SVD，冻结主成分，正交训练残差部分。

关键设计¶

跨模态任务聚类（CTC）:
做什么：无需 task ID，通过聚类自动判断输入属于哪类任务
核心思路：CLIP 编码图像+文本为统一嵌入 \(x^m\)，k-means 聚类，每批动态更新聚类中心 \(c_j^{new} = c_j^{old} + \frac{\alpha}{|S_j^{batch}|}\sum(x^m_i - c_j^{old})\)
设计动机：真实场景无任务标注，需自动识别任务类型来路由专家
双路由 MoE-LoRA（Token-level + Task-level）:
做什么：两种路由器共同选择 LoRA 专家
核心思路：\(\Delta Wx = \sum G_1(x)_i \cdot E_i(x) + \sum G_2(e)_i \cdot E_i^h(x)\)，token-level 选 top-K 专家处理细粒度语义，task-level 选 top-1 专家区分高层/低层任务
设计动机：任务间有语义相似性（如 pick 和 place），需要不同粒度的路由
SVD 正交增量 LoRA（Incremental LoRA）:
做什么：对旧任务训练过的 LoRA 参数做 SVD，冻结主成分，正交训练残差
核心思路：\(BA = U\Sigma V^T\)，保留前 \(r\) 个奇异值对应的主成分（代表旧知识），新任务只在残差空间中正交训练
设计动机：直接在原始 LoRA 上继续训练会覆盖旧知识，SVD 分解+正交约束确保新旧知识互不干扰

损失函数 / 训练策略¶

标准 next-token prediction loss + 路由负载均衡 loss + SVD 正交约束 loss。

实验关键数据¶

主实验¶

方法	LB (低层行为) AA↑	LB FM↓	HB (高层行为) AA↑	HB FM↓
Task-aware MoILE	67.91	3.37	55.66	2.67
InfLoRA	65.61	7.44	54.28	5.67
O-LoRA	64.61	8.39	53.22	6.82
MoELoRA	63.35	10.25	51.60	7.68
EWC	62.44	11.49	51.55	10.83

消融实验¶

配置	AA↑	FM↓	说明
Task-aware MoILE (完整)	67.91	3.37	全部组件
w/o CTC	~65	~5	去掉任务聚类
w/o SVD正交	~64	~8	去掉增量约束
w/o Task-level路由	~66	~4	仅 token-level

关键发现¶

遗忘率降低一半：FM 从 InfLoRA 的 7.44% 降到 3.37%，说明 SVD 正交训练非常有效
高层指令增量更难：所有方法在 HB/HE 上性能低于 LB/LE，高层规划的持续学习更具挑战
任务聚类可行：CTC 无需真实 task ID 即可有效路由，在真实场景部署有实际意义
Hybrid Hierarchical 最难：跨层级增量（HH）是五种设置中最有挑战性的

亮点与洞察¶

层次化持续学习设置是新贡献：将具身持续学习从单纯低层动作扩展到高层指令+低层动作两级，更贴合 LLM 时代 agent 的实际需求。
SVD 正交训练 LoRA：巧妙利用 LoRA 低秩结构，通过 SVD 分解+冻结+正交约束实现参数空间划分。可推广到任何基于 LoRA 的持续学习场景。
无 task ID 的任务识别：通过多模态嵌入聚类实现，比假设已知 task ID 的方法更实用。

局限性 / 可改进方向¶

评估环境为 ALFRED 仿真，真实物理机器人验证不足
聚类数需预设，如何自适应扩展未讨论
5 种设置的组合关系及难度梯度分析还可更深入
与 DRAE 等更复杂的终身学习框架的对比缺失

评分¶

新颖性: ⭐⭐⭐⭐ HEC 设置是新贡献，SVD-MoE-LoRA 组合有创意
实验充分度: ⭐⭐⭐⭐ 5 种设置 × 3 种 order × 多基线
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述系统
价值: ⭐⭐⭐⭐ 层次化持续学习设置有启发性，SVD 正交 LoRA 可复用