MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization¶
会议: CVPR2025
arXiv: 2603.12743
代码: GitHub
领域: 图像生成 / 概念定制
关键词: 概念定制, 知识编辑, 跨模态知识迁移, LLM文本编码器, DiT
一句话总结¶
提出 MoKus 框架,发现并利用"跨模态知识迁移"现象——在 LLM 文本编码器中更新知识会自动传递到视觉生成端——实现知识感知的概念定制,两阶段设计:先学视觉锚点表示,再秒级更新文本知识绑定。
研究背景与动机¶
领域现状:概念定制(Concept Customization)旨在根据用户提供的概念图像生成新的定制图像。现有方法(DreamBooth、Textual Inversion 等)用 rare token(如 \<sks>)表示目标概念。
Rare token 的两大缺陷: - 不稳定性:rare token 在预训练数据中几乎不出现,与其他文本组合时生成质量不稳定 - 知识无感知:rare token 仅绑定视觉外观,无法承载概念的固有知识(如"小美人鱼雕像在丹麦")
核心矛盾:如何将多条自然语言知识高效绑定到目标视觉概念,实现知识感知的定制生成?
关键观察——跨模态知识迁移:在 LLM 文本编码器中用知识编辑技术更新某个问题的答案后,生成的图像会对应更新后的答案。例如把"贝多芬最喜欢的乐器"的答案更新为"吉他",生成图像就会出现吉他。
方法详解¶
整体框架(两阶段)¶
阶段一:视觉概念学习(Visual Concept Learning) - 将目标概念与 rare token 关联,作为"锚点表示"(anchor representation) - 用 Rectified Flow 训练 DiT + LoRA,最小化预测速度场与真实速度场的 MSE - LoRA 参数仅加在 MMDiT 自注意力层,高效微调 - 输出:锚点表示 h = ϕ(P),存储目标概念的视觉信息
阶段二:文本知识更新(Textual Knowledge Updating) - 将每条知识 \(k_i\) 转换为问题格式 \(q_i\),期望输出为锚点表示 y - 输入问题到 LLM 编码器,提取隐藏状态 \(h_i\) 和梯度 - 计算更新方向 \(v_i = -\eta \cdot \|h_i\|^2 \cdot \nabla y_i\) - 求解正则化最小二乘得到参数偏移的闭式解 \(\Delta\theta_t^* = (H^\top H + I)^{-1} H^\top V\) - 直接加到 LLM 编码器可更新层的参数上:\(\hat{\theta}_t = \theta_t + \Delta\theta_t^*\) - 仅修改 MLP 层(Gate/Up Projection,第 18-26 层),单条知识更新只需几秒
KnowCusBench 基准¶
- 35 个概念(来自 DreamBench、CustomConcept101、Unsplash)
- 每个概念 5 条知识(6 个角度:个人关系、物理属性、功能、价值、来源、情感)
- 199 条生成 prompt(4 个角度)
- 共 5,975 张评估图像
实验关键数据¶
定量对比(表1)¶
| 方法 | 重建 CLIP-I↑ | 重建 CLIP-I-Seg↑ | 生成 CLIP-I↑ | 生成 CLIP-I-Seg↑ | 生成 CLIP-T↑ | Pick Score↑ | 训练时间↓ |
|---|---|---|---|---|---|---|---|
| Naive-DB | 0.874 | 0.758 | 0.789 | 0.717 | 0.291 | 20.80 | ~27min |
| Enc-FT | 0.582 | 0.553 | 0.591 | 0.562 | 0.197 | 18.34 | ~10min |
| MoKus | 0.867 | 0.764 | 0.761 | 0.718 | 0.305 | 21.30 | ~6min |
- MoKus 在更关键的 CLIP-I-Seg 指标上最优(过滤背景后评估概念保真度更准确)
- Enc-FT 直接微调 LLM 编码器严重破坏输出分布,各指标全面崩溃
知识数量消融(表2)¶
| 知识数量 | 重建 CLIP-I-Seg | 生成 CLIP-T | 训练时间(s) |
|---|---|---|---|
| 1 | 0.761 | 0.304 | 331.3 |
| 3 | 0.761 | 0.305 | 345.1 |
| 5 | 0.764 | 0.305 | 360.0 |
- 知识数量从 1 增到 5,性能稳定甚至略升,每增一条仅多约 7 秒
缩放因子消融¶
- η=1e-4 时性能严重崩溃(CLIP-I 降至 0.557),η=1e-6 为最优点
- η 在 1e-5~1e-8 范围内性能稳定,对超参不敏感
关键发现¶
- 可扩展到虚拟概念创建(纯文字描述即可创建新概念)和概念擦除(修改外观描述实现概念删除)
- 在世界知识基准 WISE 上也能提升模型表现
实现细节¶
- 基于 Qwen-Image 模型,8 张 H800 GPU
- 视觉概念学习:lr=2e-4,AdamW 优化器,Diffusers 默认 LoRA 配置
- 知识更新:使用 UltraEdit 方法,修改 LLM 编码器第 18-26 层的 Gate/Up Projection 矩阵(共 16 个参数矩阵),scaling factor η=1e-6
- 评估:重建+生成两部分,每部分 5 个不同随机种子,共 5,975 张图像
与并行工作的区别¶
- GapEval 和 UniSandbox 通过直接微调 LLM 文本编码器探索跨模态知识迁移,但均未发现显著证据
- MoKus 使用知识编辑技术(非直接微调)实现精确更新,成功观察到跨模态迁移
亮点¶
- 跨模态知识迁移的发现与利用:首次系统性地证明 LLM 文本编码器中的知识更新可以迁移到视觉生成,区别于并行工作(GapEval、UniSandbox)的失败尝试
- 秒级知识绑定:闭式解使得每条知识更新在秒级完成,极大优于需重训的方案
- 新任务+新基准:定义了 Knowledge-Aware Concept Customization 任务并构建 KnowCusBench
- 锚点表示的桥梁作用:rare token 从"最终表示"降级为"中间桥梁",自然语言知识成为真正的概念载体
局限性¶
- 依赖 LLM 文本编码器的知识编辑能力,编辑干扰(locality)可能影响其他知识
- 知识以文本问答格式表达,非所有概念知识都适合这种形式化
- 仅在 Qwen-Image 上测试,对其他 T2I 架构的泛化性待验证
- KnowCusBench 概念数量有限(35 个),更大规模评估
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 跨模态知识迁移观察新颖,知识感知定制是全新任务
- 实验充分度: ⭐⭐⭐⭐ 自建基准、多 baseline 对比、多应用扩展
- 写作质量: ⭐⭐⭐⭐ 动机清晰,观察-方法-验证的叙事流畅
- 价值: ⭐⭐⭐⭐ 为概念定制技术开辟了知识感知的新方向
相关论文¶
- [CVPR 2025] Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
- [CVPR 2025] ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection
- [CVPR 2025] Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images
- [CVPR 2025] BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs
- [CVPR 2025] Generative Modeling of Class Probability for Multi-Modal Representation Learning