MemEIC: A Step Toward Continual and Compositional Knowledge Editing¶

会议: NEURIPS2025
arXiv: 2510.25798
代码: MemEIC/MemEIC
领域: multimodal_vlm
关键词: knowledge editing, LVLM, continual learning, compositional reasoning, LoRA, external memory

一句话总结¶

提出 MemEIC 框架，通过外部双模态检索记忆 + 内部模态分离 LoRA 适配器 + 仿脑 Knowledge Connector 三层架构，实现大视觉语言模型的持续、组合式知识编辑，在新提出的 CCKEB 基准上大幅超越现有方法。

背景与动机¶

大视觉语言模型 (LVLM) 编码的事实知识会过时或出错，需要高效的知识编辑机制进行更新。现有的知识编辑工作存在三个关键局限：

单模态孤立编辑：大多数方法只关注视觉或文本单一模态的编辑，忽视了 LVLM 天然的多模态特性。例如只能更正"图中人物身份"（视觉编辑），或只能更新"某人的职位"（文本编辑），却无法同时处理两者
缺乏持续编辑评估：现有基准不评估模型在多次顺序编辑后的知识保留能力，忽视了灾难性遗忘问题
缺乏组合推理评估：现实场景中的查询往往需要整合视觉和文本两种编辑结果，例如"照片中的人最近担任了什么职位？"——需要先识别图中人物（视觉编辑），再查找其新职位（文本编辑）

现有方法可分为两类，各有本质缺陷：

外部记忆方法（如 SERAC, IKE）：不修改模型参数，适合长期保留，但直接沿用文本 LLM 的检索策略，忽略视觉线索，导致视觉编辑检索失败；且模型过度依赖内部陈旧知识，当外部检索信息与内部知识冲突时表现差
内部记忆方法（如 LoRA, MEND）：通过微调将编辑嵌入模型参数，能有效内化新知识，但视觉和文本编辑共享同一参数空间，导致跨模态干扰和表示坍塌；顺序编辑还会引发灾难性遗忘

核心问题¶

如何让 LVLM 在持续接收交替的视觉和文本知识编辑时，既能稳定保留历史编辑、避免遗忘，又能进行跨模态的组合推理？

方法详解¶

整体架构¶

MemEIC 采用三层协同架构：查询分解 → 外部记忆检索 (Mem-E) + 内部模态分离适配器 (Mem-I) → Knowledge Connector 融合。

1. 查询分解¶

使用 GPT-4o 将输入查询 \(Q\) 自动分解为视觉子查询 \(Q_v\) 和文本子查询 \(Q_t\)，实现各模态独立处理。例如"照片中的人最近担任了什么职位？"被分解为视觉部分"照片中的人是谁？"和文本部分"[某人]最近担任了什么职位？"。

2. 模态感知外部记忆 (Mem-E)¶

维护两个独立的外部记忆存储：

文本记忆 \(M_t = \{(q_i, a_i)\}\)：存储文本 QA 编辑对
视觉记忆 \(M_v = \{(I_j, q_j, a_j)\}\)：存储包含图像的视觉编辑三元组

检索时的关键创新是多模态融合检索：视觉查询不仅使用文本相似度，还结合 CLIP 图像编码器计算图像相似度，加权系数 \(\alpha = 0.5\)。文本检索使用 DistilBERT 的 [CLS] 表示。

对于组合查询，先通过视觉检索获取目标实体，再将实体名替换到文本子查询的占位符中，实现级联检索。

3. 内部分离式知识集成 (Mem-I)¶

受人脑偏侧化启发（左脑处理语言、右脑处理视觉），设计双 LoRA 适配器：

视觉适配器 \(\theta_v\)（对应右脑）：仅处理视觉知识更新
文本适配器 \(\theta_t\)（对应左脑）：仅处理文本知识更新
原始预训练 FFN 权重 \(\theta\) 保持冻结，保留编辑前知识

根据查询类型选择性激活对应适配器，编辑时也只更新对应模态的适配器，从根本上防止跨模态干扰和表示坍塌。

4. Knowledge Connector（仿胼胝体机制）¶

灵感来自脑科学中连接左右脑半球的胼胝体 (corpus callosum)。当组合查询同时激活双适配器时，Knowledge Connector 通过在自注意力模块的 \(Q\), \(K\) 投影上添加 LoRA 适配，促进不同模态 token 表示之间的信息交换：

\[Q^\ell = h^\ell(W_Q + \mathbb{I}_{v,t} \cdot \Delta W_Q^L)\]

其中 \(\mathbb{I}_{v,t}\) 是指示函数，仅在两个适配器同时激活时为 1。对单模态查询，Connector 退化为恒等操作，不影响独立模态表示。

训练流程¶

阶段一：冻结 LVLM，训练外部记忆模块的检索和对齐能力
阶段二：激活双适配器，使用对抗性检索器（混合正确和错误证据）训练 Knowledge Connector，鼓励模型学会选择性整合内外部证据，避免过度依赖外部记忆

实验关键数据¶

基准与设置¶

提出 CCKEB 基准，扩展 VLKEB，每个样本配对视觉编辑 + 文本编辑
骨干模型：LLaVA-1.5 (7B)、MiniGPT-4
顺序执行 500 次编辑，在 gap = 0, 10, 20, 50, 100 处评估

主实验结果（LLaVA-1.5，gap 平均）¶

方法	Visual Rel	Text Rel	Comp Rel
SERAC	较低（文本检索不足）	稳定	低（无法融合）
LoRA	0-gap 满分，gap↑急剧下降 ~30pt	同左	62.05
WISE	较稳定但视觉编辑差	较稳定	较低
MemEIC	98.93	92.48	80.56

MemEIC 相比 WISE 在视觉可靠性上 +16.94，组合可靠性上 +32.35；相比最佳基线 LoRA 在 Comp Rel 上 +18.51。

消融实验关键发现¶

外部记忆融合视觉线索至关重要：Mem-E (tex+vis) vs Mem-E (tex)，Reliability 从 48.02 → 96.51，Image Locality 从 4.02 → 57.10
双 LoRA 优于单 LoRA：在保持总参数量相同 (r=8×2 vs r=16) 的条件下，Dual-LoRA 在 T-Loc 上 +17.77%，I-Loc 上 +2.86%（p<0.05 显著）
Knowledge Connector 是组合推理的关键：
Base+RAG（完美检索）：Comp Rel 仅 64.93%——说明完美检索不够
Dual-LoRA+RAG：gap=0 时 78.16%，gap=100 时降至 63.39%——双适配器缺乏交互
Dual-LoRA+RAG+Connector：gap=0 时 99.21%，gap=100 时仍 97.01%——接近 oracle 水平

亮点¶

问题定义新颖：首次形式化持续组合知识编辑 (CCKE) 问题，提出 CompRel 指标和 CCKEB 基准，填补了多模态知识编辑评估的空白
仿脑设计有说服力：偏侧化双 LoRA 对应左右脑、Knowledge Connector 对应胼胝体，生物学类比自然且有效
三层架构各司其职：外部记忆负责精准检索、内部适配器负责模态隔离编辑、Connector 负责按需融合，层次清晰
对抗训练策略聪明：阶段二用混合正确/错误证据训练 Connector，有效缓解模型对外部记忆的过度依赖
消融实验充分：逐步叠加组件，清晰展示每个模块的贡献

局限性 / 可改进方向¶

查询分解依赖 GPT-4o：增加推理成本和延迟，实际部署中可能成为瓶颈，可探索轻量级分解器
实验仅限 paired 设置：视觉编辑后紧跟对应文本编辑，真实场景中编辑顺序可能更随机和复杂
CCKEB 规模有限：基于 VLKEB 扩展，实体类型和关系种类可能不够多样
仅验证两个骨干模型：LLaVA-1.5 和 MiniGPT-4 均相对较老，在更新更强的 LVLM 上效果待验证
Knowledge Connector 冻结后的适应性：部署阶段 Connector 冻结，若编辑分布与训练差异大，融合效果可能下降
外部记忆检索的扩展性：随着编辑量增长，余弦相似度检索的效率和准确性可能下降

与相关工作的对比¶

维度	SERAC	WISE	LoRA/FT	MemEIC
编辑方式	外部记忆	内部 (side-FFN)	内部 (微调)	外部+内部混合
多模态检索	仅文本	N/A	N/A	图文融合
遗忘抵抗	强（不改参数）	中（路由机制）	弱（共享空间）	强（模态分离）
跨模态干扰	无	有	严重	无（双 LoRA 隔离）
组合推理	差	差	中	强（Knowledge Connector）
持续编辑稳定性	稳定	较稳定	急剧退化	稳定

启发与关联¶

模态分离 + 按需融合范式有普适性：不仅适用于知识编辑，对多模态持续学习、多任务学习中的跨模态干扰问题都有参考价值
脑科学启发的网络设计：偏侧化和胼胝体的类比为多模态架构设计提供了新视角，可推广到多模态 adapter 的通用设计中
对抗训练缓解检索依赖：用噪声检索结果训练模型，提升对检索错误的鲁棒性，这一策略可用于任何 RAG 系统
与 continual learning 领域高度相关：双 LoRA 隔离编辑本质上是任务/模态特定参数的扩展策略，与 progressive networks 思路一脉相承

评分¶

新颖性: ⭐⭐⭐⭐ — CCKE 问题定义和仿脑三层架构均有明确创新
实验充分度: ⭐⭐⭐⭐ — 消融细致，但骨干模型偏旧、基准规模有限
写作质量: ⭐⭐⭐⭐ — 结构清晰，脑科学类比增强可读性
价值: ⭐⭐⭐⭐ — 为多模态知识编辑建立了新基准和强 baseline