跳转至

SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer

会议: CVPR 2025
arXiv: 2503.04119
代码: GitHub
领域: 图像生成/风格迁移
关键词: 语义风格迁移, 注意力机制, 即插即用, 连续-稀疏注意力, 任意风格迁移

一句话总结

提出即插即用的语义连续-稀疏注意力模块 SCSA,通过语义连续注意力(SCA)确保同语义区域风格一致性、语义稀疏注意力(SSA)保留原始纹理细节,可无训练嵌入任何基于注意力的风格迁移方法。

研究背景与动机

基于注意力的任意风格迁移方法(Attn-AST)包括 CNN-based(SANet)、Transformer-based(StyTR2)、Diffusion-based(StyleID),虽然能生成高质量风格化图像,但在内容和风格图像具有相同语义时表现不佳:

  • 风格不连续:同一语义区域内相邻位置由于微小结构差异导致风格化效果断裂(如背景中出现突兀的颜色变化)
  • 语义不一致:风格化图像中对应语义区域的风格与风格图像的该区域不匹配(如衣服颜色错误)
  • 纹理丢失:加权平均所有风格特征点后,原始鲜明纹理被模糊化

根本原因:现有 Attn-AST 方法在构建注意力图时,每个 query 点简单地与所有 key 点计算关系,完全忽视了语义区域的归属。这种简化可能使不同语义区域中结构相似的点被过度关注。

方法详解

整体框架

SCSA 由语义连续注意力(SCA)和语义稀疏注意力(SSA)两部分组成,配合语义自适应实例归一化(S-AdaIN)初始化。SCSA 直接替换 Attn-AST 方法中的通用注意力(UA),无需任何训练即可实现语义风格迁移。

关键设计一:语义连续注意力(SCA)

  • 功能:确保同语义区域内所有位置获得一致的整体风格特征
  • 核心思路:使用内容/风格语义图特征 \(F_{csem}, F_{ssem}\) 作为 query 和 key(而非图像特征),然后通过操作 \(G_1\) 将不同语义类别间的注意力权重设为 \(-\infty\)。由于语义图特征不包含图像结构信息,同语义区域内所有 query 点与 key 的注意力权重相同,消除了结构差异导致的风格断裂
  • 设计动机:通用注意力基于图像结构匹配,微小结构变化会导致相邻位置的风格化效果不同。SCA 通过忽略结构、仅关注语义,实现语义区域内的风格连续性

关键设计二:语义稀疏注意力(SSA)

  • 功能:保留原始风格图像的鲜明纹理细节
  • 核心思路:使用图像特征作为 query 和 key,但通过操作 \(G_2\) 在注意力图中仅保留每个 query 点在同语义区域内最相似的那一个 key 点的权重(设其余为 \(-\infty\)),使 softmax 后该点权重为 1。最终风格特征直接来自单个最匹配的风格特征点
  • 设计动机:加权平均多个风格点会模糊原始纹理。最精确的风格纹理表示存在于单个编码特征点中,sparse 匹配能保留这种鲜明性

关键设计三:语义自适应实例归一化(S-AdaIN)

  • 功能:为 SSA 提供更准确的 query 特征
  • 核心思路:对每个语义区域分别进行 AdaIN,将内容特征的均值/方差对齐到风格特征的对应语义区域,去除原始颜色风格的干扰
  • 设计动机:原始颜色信息会干扰结构匹配的准确性,S-AdaIN 提供"纯净"的结构特征作为更好的 query

损失函数

无额外训练。SCSA 以即插即用方式替换已有方法的 UA 模块。最终特征融合为 \(F_{cs} = \alpha_1 \times F_{sca} + \alpha_2 \times F_{ssa} + F_c\),其中 \(\alpha_1, \alpha_2\) 控制整体风格和纹理的迁移强度。

实验关键数据

主实验:语义风格迁移质量对比

方法 SSL ↓ FID ↓ CFSD ↓ 用户偏好 ↑
SANet 1.6583 14.34 0.1103 16.85%
SANet + SCSA 0.8762 13.08 0.0874 83.15%
StyTR2 1.9826 12.53 0.0752 15.76%
StyTR2 + SCSA 1.2228 12.40 0.0705 84.24%
StyleID 1.7538 12.59 0.0916 21.92%
StyleID + SCSA 1.2447 12.45 0.1178 78.08%

消融实验

配置 SSL ↓
SANet + SCSA (完整) 0.8762
- SSA 0.8840
- SCA 0.9096
- S-AdaIN 0.8769

关键发现

  • SCSA 在三种架构(CNN/Transformer/Diffusion)上均大幅提升语义一致性,SSL 指标降低 29-47%
  • 用户偏好率从 15-22% 提升到 78-84%,压倒性优势
  • 在与 5 种 SOTA 语义风格迁移专用方法对比中,SCSA 加持的 Attn-AST 方法仍然表现优异
  • SCA 对语义一致性贡献最大,SSA 对纹理保留贡献最大,两者互补

亮点与洞察

  1. 即插即用设计极有价值:无需训练即可嵌入现有 CNN/Transformer/Diffusion 架构,通用性极强
  2. 连续+稀疏的互补设计:SCA 提供全局一致风格,SSA 提供局部鲜明纹理,两者分工明确
  3. 清晰的问题分析:对 Attn-AST 方法在语义风格迁移上失败的三个根因分析透彻

局限与展望

  • 需要语义分割图作为额外输入,当前使用 K-Means 聚类自动生成,对复杂场景可能不够精确
  • I 分支的网格搜索计算开销随候选数线性增长
  • 对语义类别数量敏感,过多类别可能导致每个区域特征点过少
  • 未探索视频风格迁移场景下的时间一致性

相关工作与启发

  • SANet:首个将注意力引入任意风格迁移的工作
  • StyTR2:Transformer-based 风格迁移的代表
  • StyleID:基于扩散模型的风格迁移
  • STROTSS:用 EMD 距离匹配语义区域的特征分布
  • SCSA 的设计思想(语义感知的注意力约束)可推广到图像编辑、视频生成等需要语义一致性的任务

评分

⭐⭐⭐⭐ — 即插即用+无需训练的设计极具实用价值,在三种架构上的一致提升验证了方法的通用性。问题分析清晰,解决方案优雅。需要语义图输入是唯一的额外要求。

相关论文