Enhancing Creative Generation on Stable Diffusion-based Models¶

会议: CVPR 2025
arXiv: 2503.23538
代码: 无
领域: 扩散模型 / 图像生成
关键词: 创意生成, Stable Diffusion, 特征放大, 去噪过程, 免训练

一句话总结¶

本文提出 C3（Creative Concept Catalyst），一种免训练方法，通过在 Stable Diffusion 的去噪过程中选择性放大特征来增强创意生成能力，并提供基于创意两个主要维度的放大因子选择指南。

研究背景与动机¶

领域现状：Stable Diffusion 及其蒸馏变体（如 SDXL-Turbo、LCM 等）在文本到图像生成方面已达到高保真度和强文本-图像对齐，成为创意内容生成的主流工具。用户通常通过精心设计的 prompt 来控制生成内容的风格和创意程度。

现有痛点：尽管这些模型生成质量很高，但创意能力受限。在 prompt 中加入"creative"等词汇很少能真正产生预期的创意效果。模型倾向于生成符合训练数据分布的"典型"图像，难以突破常规产生新颖、意外的视觉组合。现有增强创意的方法大多需要额外训练（如微调模型权重）或复杂的 prompt 工程，计算成本高且不灵活。

核心矛盾：扩散模型的训练目标是学习数据分布并从中采样，这天然倾向于生成分布中的高概率样本。而创意生成恰恰需要偏离高概率区域，探索低概率但有意义的组合。直接增大噪声或随机性会导致质量下降而非创意提升。

本文目标：在不额外训练的前提下，增强 Stable Diffusion 基模型的创意生成能力，同时保持生成质量。

切入角度：作者分析了扩散模型去噪过程中不同特征的作用，发现某些中间特征与创意程度相关。选择性放大这些特征可以推动生成结果偏离"典型"区域，产生更具创意的输出。

核心 idea：在去噪过程中对 U-Net 的特定层特征施加放大因子，选择性增强与创意相关的特征通道，无需修改模型权重或额外训练。

方法详解¶

整体框架¶

C3 是一个即插即用的推理时方法。在标准 Stable Diffusion 的去噪循环中，C3 在特定时间步对 U-Net 内部的特征图施加放大操作。放大策略基于创意的两个维度（新颖性和多样性）设定不同的放大因子。最终输出保持了较高的图像质量，同时展现出更丰富的创意表达。

关键设计¶

选择性特征放大:
- 功能：在去噪过程中增强与创意相关的特征表示
- 核心思路：在 U-Net 的特定层（主要是中间层和解码器早期层），对特征图按通道维度施加放大因子 \(\alpha\)。放大操作为 \(\hat{f} = \alpha \cdot f\)，其中 \(f\) 为原始特征，\(\alpha > 1\) 为放大系数。放大并非对所有特征均匀施加，而是选择性地作用于与创意相关的特征通道。具体地，在去噪的早期时间步（决定全局结构和语义的阶段）施加较强的放大，在后期时间步（细化细节的阶段）减弱或不放大。
- 设计动机：去噪早期阶段决定图像的全局布局和概念组合，放大此阶段的特征推动模型探索非典型的概念组合。后期阶段放大可能导致伪影，因此需要时间步自适应的策略。
创意双维度放大指南:
- 功能：提供系统性的放大因子选择策略
- 核心思路：将创意分解为两个主要维度——新颖性（Novelty，生成结果与常见图像的偏离程度）和多样性（Diversity，多次生成结果之间的差异程度）。对于增强新颖性，需要在特征空间中推动生成轨迹远离数据分布的模式；对于增强多样性，需要在采样过程中增大随机性的表达空间。不同的放大因子组合对应不同的创意偏好：高新颖性 + 低多样性产生独特但风格一致的创意输出；低新颖性 + 高多样性产生风格多变但不太激进的创意输出。
- 设计动机：创意是一个多维概念，不能用单一参数控制。双维度框架让用户可以根据具体需求（如概念设计 vs 风格探索）灵活调整创意方向。
免训练即插即用设计:
- 功能：在不修改模型权重的情况下增强创意
- 核心思路：C3 仅在推理时修改 U-Net 的前向传播过程，对特定层的输出做放大操作。不需要梯度回传、不修改 attention 权重、不需要额外的编码器或适配器。整个方法可以用几行代码实现在任何基于 Stable Diffusion 的模型上。
- 设计动机：免训练方法的计算成本几乎为零，且天然兼容所有 Stable Diffusion 变体（SD1.5、SDXL、SD Turbo、LCM 等），部署极为方便。

损失函数 / 训练策略¶

本方法无需训练，仅在推理阶段对特征进行放大操作。

实验关键数据¶

主实验：创意生成效果¶

模型	方法	新颖性评分	多样性评分	图像质量（FID）
SD 1.5	baseline	基线	基线	基线
SD 1.5	+ C3	显著提升	显著提升	轻微下降
SDXL	baseline	基线	基线	基线
SDXL	+ C3	显著提升	显著提升	轻微下降
SD Turbo	+ C3	显著提升	显著提升	轻微下降

消融实验¶

配置	新颖性	质量	说明
Full C3	高	良好	完整方法
均匀放大（不按时间步）	中	差	后期时间步放大导致伪影
仅放大解码器	中	良好	缺少对全局语义的影响
仅放大编码器	低	良好	对创意提升有限

关键发现¶

放大因子 \(\alpha\) 的选择对新颖性和质量有直接 trade-off：\(\alpha\) 过大导致失真，\(\alpha\) 过小创意不足
中间层特征对创意的贡献最大，浅层和深层特征放大效果有限
在去噪早期（约前 30-50% 时间步）施加放大效果最佳
方法在所有测试的 SD 变体上均有效，体现了通用性

亮点与洞察¶

极致简洁：几行代码就能在任意 Stable Diffusion 模型上增强创意，不需要训练、不需要数据、不需要额外模型。这种"推理时干预"的思路在实际部署中非常有价值。
创意量化框架：将创意分解为新颖性和多样性两个可独立调控的维度，为创意生成的评估和控制提供了结构化框架。
可迁移到其他生成任务：特征放大的思路不限于 Stable Diffusion，理论上可以应用于任何基于去噪的生成模型（如 DiT、视频扩散等），用于探索生成空间的低概率区域。

局限与展望¶

创意评估的主观性：创意本身就是一个主观概念，不同人对"创意"的理解不同。自动化评估指标可能无法完全反映人类对创意的感知
放大因子的敏感性：不同的 prompt 和模型可能需要不同的放大因子，缺少自动化的参数选择机制
可能产生不连贯内容：过度放大可能导致语义不连贯的图像，如不合理的物体组合或扭曲的结构
质量下降：虽然标注为"轻微"，但 FID 的上升说明创意增强是以一定质量为代价的
未来可探索：自适应放大因子选择、结合 CLIP 评分的创意质量平衡、扩展到视频和 3D 生成

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地研究扩散模型的创意增强问题，特征放大 idea 简洁有效
实验充分度: ⭐⭐⭐ 跨多个 SD 变体验证，但缺少大规模人类评估和与更多基线的对比
写作质量: ⭐⭐⭐⭐ 创意双维度框架清晰，但方法部分技术细节可进一步充实
价值: ⭐⭐⭐⭐ 免训练即插即用的方案实用性极高，对创意应用场景有直接帮助