SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer¶

会议: CVPR 2025
arXiv: 2503.04119
代码: GitHub
领域: 图像生成/风格迁移
关键词: 语义风格迁移, 注意力机制, 即插即用, 连续-稀疏注意力, 任意风格迁移

一句话总结¶

提出即插即用的语义连续-稀疏注意力模块 SCSA，通过语义连续注意力（SCA）确保同语义区域风格一致性、语义稀疏注意力（SSA）保留原始纹理细节，可无训练嵌入任何基于注意力的风格迁移方法。

研究背景与动机¶

基于注意力的任意风格迁移方法（Attn-AST）包括 CNN-based（SANet）、Transformer-based（StyTR2）、Diffusion-based（StyleID），虽然能生成高质量风格化图像，但在内容和风格图像具有相同语义时表现不佳：

风格不连续：同一语义区域内相邻位置由于微小结构差异导致风格化效果断裂（如背景中出现突兀的颜色变化）
语义不一致：风格化图像中对应语义区域的风格与风格图像的该区域不匹配（如衣服颜色错误）
纹理丢失：加权平均所有风格特征点后，原始鲜明纹理被模糊化

根本原因：现有 Attn-AST 方法在构建注意力图时，每个 query 点简单地与所有 key 点计算关系，完全忽视了语义区域的归属。这种简化可能使不同语义区域中结构相似的点被过度关注。

方法详解¶

整体框架¶

SCSA 由语义连续注意力（SCA）和语义稀疏注意力（SSA）两部分组成，配合语义自适应实例归一化（S-AdaIN）初始化。SCSA 直接替换 Attn-AST 方法中的通用注意力（UA），无需任何训练即可实现语义风格迁移。

关键设计一：语义连续注意力（SCA）¶

功能：确保同语义区域内所有位置获得一致的整体风格特征
核心思路：使用内容/风格语义图特征 \(F_{csem}, F_{ssem}\) 作为 query 和 key（而非图像特征），然后通过操作 \(G_1\) 将不同语义类别间的注意力权重设为 \(-\infty\)。由于语义图特征不包含图像结构信息，同语义区域内所有 query 点与 key 的注意力权重相同，消除了结构差异导致的风格断裂
设计动机：通用注意力基于图像结构匹配，微小结构变化会导致相邻位置的风格化效果不同。SCA 通过忽略结构、仅关注语义，实现语义区域内的风格连续性

关键设计二：语义稀疏注意力（SSA）¶

功能：保留原始风格图像的鲜明纹理细节
核心思路：使用图像特征作为 query 和 key，但通过操作 \(G_2\) 在注意力图中仅保留每个 query 点在同语义区域内最相似的那一个 key 点的权重（设其余为 \(-\infty\)），使 softmax 后该点权重为 1。最终风格特征直接来自单个最匹配的风格特征点
设计动机：加权平均多个风格点会模糊原始纹理。最精确的风格纹理表示存在于单个编码特征点中，sparse 匹配能保留这种鲜明性

关键设计三：语义自适应实例归一化（S-AdaIN）¶

功能：为 SSA 提供更准确的 query 特征
核心思路：对每个语义区域分别进行 AdaIN，将内容特征的均值/方差对齐到风格特征的对应语义区域，去除原始颜色风格的干扰
设计动机：原始颜色信息会干扰结构匹配的准确性，S-AdaIN 提供"纯净"的结构特征作为更好的 query

损失函数¶

无额外训练。SCSA 以即插即用方式替换已有方法的 UA 模块。最终特征融合为 \(F_{cs} = \alpha_1 \times F_{sca} + \alpha_2 \times F_{ssa} + F_c\)，其中 \(\alpha_1, \alpha_2\) 控制整体风格和纹理的迁移强度。

实验关键数据¶

主实验：语义风格迁移质量对比¶

方法	SSL ↓	FID ↓	CFSD ↓	用户偏好 ↑
SANet	1.6583	14.34	0.1103	16.85%
SANet + SCSA	0.8762	13.08	0.0874	83.15%
StyTR2	1.9826	12.53	0.0752	15.76%
StyTR2 + SCSA	1.2228	12.40	0.0705	84.24%
StyleID	1.7538	12.59	0.0916	21.92%
StyleID + SCSA	1.2447	12.45	0.1178	78.08%

消融实验¶

配置	SSL ↓
SANet + SCSA (完整)	0.8762
- SSA	0.8840
- SCA	0.9096
- S-AdaIN	0.8769

关键发现¶

SCSA 在三种架构（CNN/Transformer/Diffusion）上均大幅提升语义一致性，SSL 指标降低 29-47%
用户偏好率从 15-22% 提升到 78-84%，压倒性优势
在与 5 种 SOTA 语义风格迁移专用方法对比中，SCSA 加持的 Attn-AST 方法仍然表现优异
SCA 对语义一致性贡献最大，SSA 对纹理保留贡献最大，两者互补

亮点与洞察¶

即插即用设计极有价值：无需训练即可嵌入现有 CNN/Transformer/Diffusion 架构，通用性极强
连续+稀疏的互补设计：SCA 提供全局一致风格，SSA 提供局部鲜明纹理，两者分工明确
清晰的问题分析：对 Attn-AST 方法在语义风格迁移上失败的三个根因分析透彻

局限与展望¶

需要语义分割图作为额外输入，当前使用 K-Means 聚类自动生成，对复杂场景可能不够精确
I 分支的网格搜索计算开销随候选数线性增长
对语义类别数量敏感，过多类别可能导致每个区域特征点过少
未探索视频风格迁移场景下的时间一致性

评分¶

⭐⭐⭐⭐ — 即插即用+无需训练的设计极具实用价值，在三种架构上的一致提升验证了方法的通用性。问题分析清晰，解决方案优雅。需要语义图输入是唯一的额外要求。