All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation¶

会议: ICLR 2026
arXiv: 2603.14276
代码: https://ganvin-li.github.io/AlldayWalker/
领域: 视觉语言导航 / 持续学习
关键词: 终身视觉语言导航, Tucker分解, 参数高效微调, 灾难性遗忘, 多层级知识解耦

一句话总结¶

提出Tucker Adaptation (TuKA)，将多场景多环境的多层级导航知识表示为高阶张量，用Tucker分解解耦为共享子空间（核心张量+编解码器）和场景/环境专家向量，配合解耦知识增量学习策略实现全天候多场景终身VLN，在24个导航场景上的SR和遗忘率均优于LoRA变体。

研究背景与动机¶

领域现状：VLN agent已从离散图导航发展到连续环境中的低层动作导航，但实际部署中agent会面对多种场景（卧室、客厅等）和多种环境条件（正常、低光、过曝、散射），需要持续学习适应。
现有痛点：在特定场景上微调后的VLN agent在切换到新场景时会灾难性遗忘旧场景的导航能力。现有LoRA/MoE-LoRA方法仅能表示"共享矩阵+特定矩阵"的二层级知识结构，无法解耦"场景知识"和"环境知识"这两个正交维度。
核心矛盾：导航知识具有多层级结构——核心导航技能（所有场景共享）、场景特定知识（如室内布局）、环境特定知识（如低光下视觉适应）——这三层知识需要同时独立学习和跨任务共享。
本文要解决什么：形式化"全天候多场景终身VLN"（AML-VLN）问题，设计能解耦多层级知识的参数高效适应方法。
切入角度：利用Tucker张量分解天然的多模态分解能力——核心张量捕获共享知识，各因子矩阵的行分别编码场景/环境专家。
核心idea一句话：用四阶张量的Tucker分解同时编码共享核心导航技能、场景专家和环境专家，通过解耦增量学习实现无遗忘终身导航。

方法详解¶

整体框架¶

TuKA在LLM backbone（Qwen2-7B）的每层引入四阶张量 \(\mathcal{X}^l \in \mathbb{R}^{a_l \times b_l \times M \times N}\)，通过Tucker分解为：核心张量 \(\mathcal{G}\)（共享导航技能）、\(U^1, U^2\)（共享编解码器）、\(U^3 \in \mathbb{R}^{M \times r_3}\)（M个场景专家）、\(U^4 \in \mathbb{R}^{N \times r_4}\)（N个环境专家）。学习第t个场景时，选择对应的场景专家行 \(U^3[s,:]\) 和环境专家行 \(U^4[e,:]\)，与共享组件组合生成该层的适配权重 \(\Delta W_t\)。

关键设计¶

Tucker Adaptation架构
做什么：用高阶张量Tucker分解替代LoRA的低秩矩阵分解
核心思路：\(\Delta W_t = U^1 \cdot (\mathcal{G} \times_3 U^3[s,:] \times_4 U^4[e,:]) \cdot (U^2)^T\)。场景专家通过第3模选择（从M个中选第s个），环境专家通过第4模选择（从N个中选第e个），自然实现了"场景×环境"的二维组合空间
设计动机：LoRA/MoE-LoRA将所有知识压缩在二维矩阵中（一个共享+多个特定），无法分别建模场景和环境两个正交知识维度。Tucker分解的高阶性天然支持多维知识解耦——核心张量+因子矩阵的多模结构正好匹配导航知识的层级结构
解耦知识增量学习（DKIL）
做什么：在持续学习新场景时同时巩固共享知识和约束特定专家
核心思路：三个损失协同工作：
- 共享知识EWC（\(\mathcal{L}_{ewc}\)）：对核心张量和编解码器施加Fisher信息加权的二次约束，防止共享组件剧烈偏移。Fisher权重通过指数移动平均递增更新
- 专家一致性（\(\mathcal{L}_{co}\)）：对已学过的场景/环境专家施加L2约束防止遗忘
- 专家正交性（\(\mathcal{L}_{es}\)）：对新专家施加与已有专家正交的约束，确保新知识在独立子空间中学习
设计动机：共享知识需要缓慢巩固（EWC），已学专家需要保持（一致性约束），新专家需要独立探索（正交约束）——三层机制分别应对持续学习的不同需求
任务专家推理搜索
做什么：测试时自动匹配场景和环境专家（无需task-id）
核心思路：训练时存储每个场景/环境的CLIP视觉特征原型。测试时提取当前观察的视觉特征，通过余弦相似度分别匹配最近的场景专家和环境专家
设计动机：实际部署中task-id不可知，需要基于视觉特征自动路由到正确的专家组合

Allday-Habitat仿真平台¶

基于Habitat扩展，用三种成像模型（大气散射模型、低光噪声模型、过曝裁剪模型）从正常环境合成退化环境，构建24个导航场景（5个仿真场景×4种环境 + 2个真实场景×2种环境）。

实验关键数据¶

主实验（24个场景平均SR%）¶

方法	平均SR↑	平均F-SR↓	说明
Seq-FT	11%	高	顺序微调，严重遗忘
EWC-LoRA	15%	-	LoRA+EWC
HydraLoRA	~17%	-	MoE-LoRA
BranchLoRA	~18%	-	分支LoRA
AlldayWalker (TuKA)	最佳	最低	Tucker适应

TuKA在所有24个场景上的SR和SPL均一致优于LoRA变体基线，遗忘率显著更低。

消融实验¶

配置	Avg SR	说明
w/o 核心张量共享	下降	共享知识无法跨任务传递
w/o EWC约束	明显下降	共享知识被新任务覆盖
w/o 正交约束	下降	新专家与旧专家在同一子空间中干扰
w/o 专家一致性	下降	已学专家被修改导致遗忘
Full TuKA	最佳	完整框架

关键发现¶

顺序微调（Seq-FT）在前期场景上SR几乎降为0（T1-T6均为0%），说明灾难性遗忘极其严重
Tucker分解的第3/4模因子矩阵天然支持"场景×环境"的组合泛化——训练过的场景在未见环境下也有一定泛化能力
正交约束虽然简单但对新专家的独立学习至关重要
真实世界部署（两个真实场景）也验证了方法的有效性

亮点与洞察¶

用张量分解建模多层级知识的思路非常优雅——Tucker分解的"核心张量+因子矩阵"结构与"共享技能+场景专家+环境专家"的知识结构恰好对应
维度对齐问题的解决很巧妙：从因子矩阵中只选择一行向量，将高阶张量降维到二维权重矩阵，完美匹配LLM backbone的矩阵结构
DKIL策略中三层机制（EWC巩固+一致性约束+正交探索）形成了持续学习的完整工具箱
构建的Allday-Habitat平台通过物理成像模型（而非简单滤镜）合成退化环境，增加了环境变化的真实感

局限性 / 可改进方向¶

目前仅涉及5+2=7个场景和4种环境，规模较小——大规模场景（数百个）下的可扩展性未知
专家数量M和N需要预设，无法动态扩展——真正的终身学习应该支持开放式增长
推理时的专家搜索依赖CLIP特征匹配，如果新环境与已有环境差异过大可能匹配失败
四种退化环境（正常/低光/过曝/散射）虽有物理依据但真实世界的环境变化更复杂（雨雾、运动模糊、遮挡等）
低秩设置 \(r_1=r_2=8, r_3=r_4=64\) 的选择偏任意，缺乏对rank选择的敏感性分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ Tucker分解+多层级知识解耦的组合在VLN/持续学习中是首创，问题定义（AML-VLN）也是新的
实验充分度: ⭐⭐⭐⭐ 24个场景+真实世界部署+消融都有，但场景规模偏小
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，方法图示直观
价值: ⭐⭐⭐⭐ 对VLN实际部署有直接意义，Tucker适应的思路可迁移到其他多维持续学习场景