MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization¶

会议: CVPR2025
arXiv: 2603.12743
代码: GitHub
领域: 图像生成 / 概念定制
关键词: 概念定制, 知识编辑, 跨模态知识迁移, LLM文本编码器, DiT

一句话总结¶

提出 MoKus 框架，发现并利用"跨模态知识迁移"现象——在 LLM 文本编码器中更新知识会自动传递到视觉生成端——实现知识感知的概念定制，两阶段设计：先学视觉锚点表示，再秒级更新文本知识绑定。

研究背景与动机¶

领域现状：概念定制（Concept Customization）旨在根据用户提供的概念图像生成新的定制图像。现有方法（DreamBooth、Textual Inversion 等）用 rare token（如 \<sks>）表示目标概念。

Rare token 的两大缺陷： - 不稳定性：rare token 在预训练数据中几乎不出现，与其他文本组合时生成质量不稳定 - 知识无感知：rare token 仅绑定视觉外观，无法承载概念的固有知识（如"小美人鱼雕像在丹麦"）

核心矛盾：如何将多条自然语言知识高效绑定到目标视觉概念，实现知识感知的定制生成？

关键观察——跨模态知识迁移：在 LLM 文本编码器中用知识编辑技术更新某个问题的答案后，生成的图像会对应更新后的答案。例如把"贝多芬最喜欢的乐器"的答案更新为"吉他"，生成图像就会出现吉他。

方法详解¶

整体框架（两阶段）¶

阶段一：视觉概念学习（Visual Concept Learning） - 将目标概念与 rare token 关联，作为"锚点表示"（anchor representation） - 用 Rectified Flow 训练 DiT + LoRA，最小化预测速度场与真实速度场的 MSE - LoRA 参数仅加在 MMDiT 自注意力层，高效微调 - 输出：锚点表示 h = ϕ(P)，存储目标概念的视觉信息

阶段二：文本知识更新（Textual Knowledge Updating） - 将每条知识 \(k_i\) 转换为问题格式 \(q_i\)，期望输出为锚点表示 y - 输入问题到 LLM 编码器，提取隐藏状态 \(h_i\) 和梯度 - 计算更新方向 \(v_i = -\eta \cdot \|h_i\|^2 \cdot \nabla y_i\) - 求解正则化最小二乘得到参数偏移的闭式解 \(\Delta\theta_t^* = (H^\top H + I)^{-1} H^\top V\) - 直接加到 LLM 编码器可更新层的参数上：\(\hat{\theta}_t = \theta_t + \Delta\theta_t^*\) - 仅修改 MLP 层（Gate/Up Projection，第 18-26 层），单条知识更新只需几秒

KnowCusBench 基准¶

35 个概念（来自 DreamBench、CustomConcept101、Unsplash）
每个概念 5 条知识（6 个角度：个人关系、物理属性、功能、价值、来源、情感）
199 条生成 prompt（4 个角度）
共 5,975 张评估图像

实验关键数据¶

定量对比（表1）¶

方法	重建 CLIP-I↑	重建 CLIP-I-Seg↑	生成 CLIP-I↑	生成 CLIP-I-Seg↑	生成 CLIP-T↑	Pick Score↑	训练时间↓
Naive-DB	0.874	0.758	0.789	0.717	0.291	20.80	~27min
Enc-FT	0.582	0.553	0.591	0.562	0.197	18.34	~10min
MoKus	0.867	0.764	0.761	0.718	0.305	21.30	~6min

MoKus 在更关键的 CLIP-I-Seg 指标上最优（过滤背景后评估概念保真度更准确）
Enc-FT 直接微调 LLM 编码器严重破坏输出分布，各指标全面崩溃

知识数量消融（表2）¶

知识数量	重建 CLIP-I-Seg	生成 CLIP-T	训练时间(s)
1	0.761	0.304	331.3
3	0.761	0.305	345.1
5	0.764	0.305	360.0

知识数量从 1 增到 5，性能稳定甚至略升，每增一条仅多约 7 秒

缩放因子消融¶

η=1e-4 时性能严重崩溃（CLIP-I 降至 0.557），η=1e-6 为最优点
η 在 1e-5~1e-8 范围内性能稳定，对超参不敏感

关键发现¶

可扩展到虚拟概念创建（纯文字描述即可创建新概念）和概念擦除（修改外观描述实现概念删除）
在世界知识基准 WISE 上也能提升模型表现

实现细节¶

基于 Qwen-Image 模型，8 张 H800 GPU
视觉概念学习：lr=2e-4，AdamW 优化器，Diffusers 默认 LoRA 配置
知识更新：使用 UltraEdit 方法，修改 LLM 编码器第 18-26 层的 Gate/Up Projection 矩阵（共 16 个参数矩阵），scaling factor η=1e-6
评估：重建+生成两部分，每部分 5 个不同随机种子，共 5,975 张图像

与并行工作的区别¶

GapEval 和 UniSandbox 通过直接微调 LLM 文本编码器探索跨模态知识迁移，但均未发现显著证据
MoKus 使用知识编辑技术（非直接微调）实现精确更新，成功观察到跨模态迁移

亮点¶

跨模态知识迁移的发现与利用：首次系统性地证明 LLM 文本编码器中的知识更新可以迁移到视觉生成，区别于并行工作（GapEval、UniSandbox）的失败尝试
秒级知识绑定：闭式解使得每条知识更新在秒级完成，极大优于需重训的方案
新任务+新基准：定义了 Knowledge-Aware Concept Customization 任务并构建 KnowCusBench
锚点表示的桥梁作用：rare token 从"最终表示"降级为"中间桥梁"，自然语言知识成为真正的概念载体

局限性¶

依赖 LLM 文本编码器的知识编辑能力，编辑干扰（locality）可能影响其他知识
知识以文本问答格式表达，非所有概念知识都适合这种形式化
仅在 Qwen-Image 上测试，对其他 T2I 架构的泛化性待验证
KnowCusBench 概念数量有限（35 个），更大规模评估

评分¶

新颖性: ⭐⭐⭐⭐⭐ 跨模态知识迁移观察新颖，知识感知定制是全新任务
实验充分度: ⭐⭐⭐⭐ 自建基准、多 baseline 对比、多应用扩展
写作质量: ⭐⭐⭐⭐ 动机清晰，观察-方法-验证的叙事流畅
价值: ⭐⭐⭐⭐ 为概念定制技术开辟了知识感知的新方向