DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching¶

会议: CVPR 2025
arXiv: 2411.17786
代码: 有（项目页）
领域: 图像生成
关键词: 个性化生成、特征缓存、免微调、即插即用、轻量适配

一句话总结¶

提出 DreamCache 通过在单个去噪步（t=1）缓存参考图的 U-Net 中间特征，用轻量 25M 参数的条件适配器在生成时注入缓存特征，实现免微调、免编码器、即插即用的个性化图像生成。

领域现状：个性化图像生成从参考图+文本 prompt 合成保持特定身份/风格的新图像。方法分为微调型（DreamBooth 需逐用户训练）和非微调型（IP-Adapter 需 CLIP/BLIP 编码器）。

现有痛点：(1) 微调型每换一个主体要重训几分钟，不适合实时应用。(2) 非微调型虽免微调但需要额外编码器（IP-Adapter 402M, BLIP-Diffusion 380M），参数量大且不即插即用。(3) 编码器提取的全局特征可能丢失细粒度外观细节。

核心矛盾：需要从参考图提取丰富的视觉信息用于个性化，但不想引入大型外部编码器或需要微调。

本文目标 用极轻量的方式从参考图提取个性化信息——不需要编码器、不需要微调、可即插即用。

切入角度：预训练扩散模型的 U-Net 本身就是强大的特征提取器——在最不含噪的时间步（t=1）对参考图做一次前向传播，缓存中间层特征，就获得了丰富的多层次视觉表征。训练小型适配器将缓存特征注入生成过程即可。

核心 idea：用预训练 U-Net 自身在 t=1 的特征作为参考图表征（缓存），通过 25M 轻量适配器注入生成过程，实现免微调即插即用个性化。

参考图 → 预训练 U-Net 在 t=1 + null prompt 前向一次 → 缓存中间瓶颈层 + 每隔一层解码器层的特征 → 生成时条件适配器（attention-based）将缓存特征注入对应层 → 个性化图像输出。

单步特征缓存:
- 功能：零额外成本地从参考图提取多层次特征
- 核心思路：在 t=1（最干净时步）用 null text prompt 对参考图做一次 U-Net 前向。缓存中间瓶颈层 + 每隔一层解码器层的激活。这些特征包含了从低级纹理到高级语义的多层次信息
- 设计动机：(1) t=1 最不含噪→特征最干净。(2) null prompt 解耦了视觉内容和文本→泛化更好。(3) 只需一次前向→开销几乎为零
条件适配器（25M）:
- 功能：将缓存特征注入去噪过程
- 核心思路：基于注意力的轻量模块，每个对应层有一个适配器。输入为缓存特征，通过 cross-attention 注入去噪 U-Net 的对应层
- 设计动机：(1) 仅 25M 参数是 IP-Adapter（402M）的 1/16。(2) 即插即用——去掉适配器模型回到原始非个性化模式。(3) 只训练适配器不动 U-Net
合成训练数据:
- 功能：无需人工标注的（prompt, 目标图, 参考图）三元组
- 核心思路：自动生成包含同一主体不同视角/背景的训练对，仅用于训练适配器
- 设计动机：避免了收集真实个性化数据的困难

标准扩散去噪损失，仅训练适配器参数。U-Net 完全冻结。40 小时训练（vs IP-Adapter 28 天）。

"U-Net 自身就是最好的特征提取器"——不需要额外的 CLIP/BLIP 编码器，用去噪 U-Net 在干净时步提取的特征既充分又与生成过程自然对齐
即插即用特性对实际部署极有价值——同一基础模型可以在有/无个性化间自由切换
训练效率：40 小时 vs IP-Adapter 28 天，降低 16×