跳转至

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

会议: ICLR 2026
arXiv: 2603.14276
代码: https://ganvin-li.github.io/AlldayWalker/
领域: 视觉语言导航 / 持续学习
关键词: 终身视觉语言导航, Tucker分解, 参数高效微调, 灾难性遗忘, 多层级知识解耦

一句话总结

提出Tucker Adaptation (TuKA),将多场景多环境的多层级导航知识表示为高阶张量,用Tucker分解解耦为共享子空间(核心张量+编解码器)和场景/环境专家向量,配合解耦知识增量学习策略实现全天候多场景终身VLN,在24个导航场景上的SR和遗忘率均优于LoRA变体。

研究背景与动机

  1. 领域现状:VLN agent已从离散图导航发展到连续环境中的低层动作导航,但实际部署中agent会面对多种场景(卧室、客厅等)和多种环境条件(正常、低光、过曝、散射),需要持续学习适应。
  2. 现有痛点:在特定场景上微调后的VLN agent在切换到新场景时会灾难性遗忘旧场景的导航能力。现有LoRA/MoE-LoRA方法仅能表示"共享矩阵+特定矩阵"的二层级知识结构,无法解耦"场景知识"和"环境知识"这两个正交维度。
  3. 核心矛盾:导航知识具有多层级结构——核心导航技能(所有场景共享)、场景特定知识(如室内布局)、环境特定知识(如低光下视觉适应)——这三层知识需要同时独立学习和跨任务共享。
  4. 本文要解决什么:形式化"全天候多场景终身VLN"(AML-VLN)问题,设计能解耦多层级知识的参数高效适应方法。
  5. 切入角度:利用Tucker张量分解天然的多模态分解能力——核心张量捕获共享知识,各因子矩阵的行分别编码场景/环境专家。
  6. 核心idea一句话:用四阶张量的Tucker分解同时编码共享核心导航技能、场景专家和环境专家,通过解耦增量学习实现无遗忘终身导航。

方法详解

整体框架

TuKA在LLM backbone(Qwen2-7B)的每层引入四阶张量 \(\mathcal{X}^l \in \mathbb{R}^{a_l \times b_l \times M \times N}\),通过Tucker分解为:核心张量 \(\mathcal{G}\)(共享导航技能)、\(U^1, U^2\)(共享编解码器)、\(U^3 \in \mathbb{R}^{M \times r_3}\)(M个场景专家)、\(U^4 \in \mathbb{R}^{N \times r_4}\)(N个环境专家)。学习第t个场景时,选择对应的场景专家行 \(U^3[s,:]\) 和环境专家行 \(U^4[e,:]\),与共享组件组合生成该层的适配权重 \(\Delta W_t\)

关键设计

  1. Tucker Adaptation架构
  2. 做什么:用高阶张量Tucker分解替代LoRA的低秩矩阵分解
  3. 核心思路:\(\Delta W_t = U^1 \cdot (\mathcal{G} \times_3 U^3[s,:] \times_4 U^4[e,:]) \cdot (U^2)^T\)。场景专家通过第3模选择(从M个中选第s个),环境专家通过第4模选择(从N个中选第e个),自然实现了"场景×环境"的二维组合空间
  4. 设计动机:LoRA/MoE-LoRA将所有知识压缩在二维矩阵中(一个共享+多个特定),无法分别建模场景和环境两个正交知识维度。Tucker分解的高阶性天然支持多维知识解耦——核心张量+因子矩阵的多模结构正好匹配导航知识的层级结构

  5. 解耦知识增量学习(DKIL)

  6. 做什么:在持续学习新场景时同时巩固共享知识和约束特定专家
  7. 核心思路:三个损失协同工作:
    • 共享知识EWC\(\mathcal{L}_{ewc}\)):对核心张量和编解码器施加Fisher信息加权的二次约束,防止共享组件剧烈偏移。Fisher权重通过指数移动平均递增更新
    • 专家一致性\(\mathcal{L}_{co}\)):对已学过的场景/环境专家施加L2约束防止遗忘
    • 专家正交性\(\mathcal{L}_{es}\)):对新专家施加与已有专家正交的约束,确保新知识在独立子空间中学习
  8. 设计动机:共享知识需要缓慢巩固(EWC),已学专家需要保持(一致性约束),新专家需要独立探索(正交约束)——三层机制分别应对持续学习的不同需求

  9. 任务专家推理搜索

  10. 做什么:测试时自动匹配场景和环境专家(无需task-id)
  11. 核心思路:训练时存储每个场景/环境的CLIP视觉特征原型。测试时提取当前观察的视觉特征,通过余弦相似度分别匹配最近的场景专家和环境专家
  12. 设计动机:实际部署中task-id不可知,需要基于视觉特征自动路由到正确的专家组合

Allday-Habitat仿真平台

基于Habitat扩展,用三种成像模型(大气散射模型、低光噪声模型、过曝裁剪模型)从正常环境合成退化环境,构建24个导航场景(5个仿真场景×4种环境 + 2个真实场景×2种环境)。

实验关键数据

主实验(24个场景平均SR%)

方法 平均SR↑ 平均F-SR↓ 说明
Seq-FT 11% 顺序微调,严重遗忘
EWC-LoRA 15% - LoRA+EWC
HydraLoRA ~17% - MoE-LoRA
BranchLoRA ~18% - 分支LoRA
AlldayWalker (TuKA) 最佳 最低 Tucker适应

TuKA在所有24个场景上的SR和SPL均一致优于LoRA变体基线,遗忘率显著更低。

消融实验

配置 Avg SR 说明
w/o 核心张量共享 下降 共享知识无法跨任务传递
w/o EWC约束 明显下降 共享知识被新任务覆盖
w/o 正交约束 下降 新专家与旧专家在同一子空间中干扰
w/o 专家一致性 下降 已学专家被修改导致遗忘
Full TuKA 最佳 完整框架

关键发现

  • 顺序微调(Seq-FT)在前期场景上SR几乎降为0(T1-T6均为0%),说明灾难性遗忘极其严重
  • Tucker分解的第3/4模因子矩阵天然支持"场景×环境"的组合泛化——训练过的场景在未见环境下也有一定泛化能力
  • 正交约束虽然简单但对新专家的独立学习至关重要
  • 真实世界部署(两个真实场景)也验证了方法的有效性

亮点与洞察

  • 用张量分解建模多层级知识的思路非常优雅——Tucker分解的"核心张量+因子矩阵"结构与"共享技能+场景专家+环境专家"的知识结构恰好对应
  • 维度对齐问题的解决很巧妙:从因子矩阵中只选择一行向量,将高阶张量降维到二维权重矩阵,完美匹配LLM backbone的矩阵结构
  • DKIL策略中三层机制(EWC巩固+一致性约束+正交探索)形成了持续学习的完整工具箱
  • 构建的Allday-Habitat平台通过物理成像模型(而非简单滤镜)合成退化环境,增加了环境变化的真实感

局限性 / 可改进方向

  • 目前仅涉及5+2=7个场景和4种环境,规模较小——大规模场景(数百个)下的可扩展性未知
  • 专家数量M和N需要预设,无法动态扩展——真正的终身学习应该支持开放式增长
  • 推理时的专家搜索依赖CLIP特征匹配,如果新环境与已有环境差异过大可能匹配失败
  • 四种退化环境(正常/低光/过曝/散射)虽有物理依据但真实世界的环境变化更复杂(雨雾、运动模糊、遮挡等)
  • 低秩设置 \(r_1=r_2=8, r_3=r_4=64\) 的选择偏任意,缺乏对rank选择的敏感性分析

相关工作与启发

  • vs LoRA: LoRA的两维矩阵分解无法解耦多维知识;TuKA扩展到四阶张量分解
  • vs HydraLoRA/BranchLoRA: 这些MoE-LoRA方法只有"共享+特定"两层结构,TuKA有"共享+场景+环境"三层
  • vs EWC/LwF等持续学习方法: 传统持续学习方法不考虑知识的层级结构;TuKA的DKIL对不同层级的知识施加不同策略
  • vs StreamVLN: AlldayWalker基于StreamVLN的agent架构,TuKA作为参数高效适应层插入

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Tucker分解+多层级知识解耦的组合在VLN/持续学习中是首创,问题定义(AML-VLN)也是新的
  • 实验充分度: ⭐⭐⭐⭐ 24个场景+真实世界部署+消融都有,但场景规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,方法图示直观
  • 价值: ⭐⭐⭐⭐ 对VLN实际部署有直接意义,Tucker适应的思路可迁移到其他多维持续学习场景