SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer¶
会议: CVPR 2025
arXiv: 2503.04119
代码: GitHub
领域: 图像生成/风格迁移
关键词: 语义风格迁移, 注意力机制, 即插即用, 连续-稀疏注意力, 任意风格迁移
一句话总结¶
提出即插即用的语义连续-稀疏注意力模块 SCSA,通过语义连续注意力(SCA)确保同语义区域风格一致性、语义稀疏注意力(SSA)保留原始纹理细节,可无训练嵌入任何基于注意力的风格迁移方法。
研究背景与动机¶
基于注意力的任意风格迁移方法(Attn-AST)包括 CNN-based(SANet)、Transformer-based(StyTR2)、Diffusion-based(StyleID),虽然能生成高质量风格化图像,但在内容和风格图像具有相同语义时表现不佳:
- 风格不连续:同一语义区域内相邻位置由于微小结构差异导致风格化效果断裂(如背景中出现突兀的颜色变化)
- 语义不一致:风格化图像中对应语义区域的风格与风格图像的该区域不匹配(如衣服颜色错误)
- 纹理丢失:加权平均所有风格特征点后,原始鲜明纹理被模糊化
根本原因:现有 Attn-AST 方法在构建注意力图时,每个 query 点简单地与所有 key 点计算关系,完全忽视了语义区域的归属。这种简化可能使不同语义区域中结构相似的点被过度关注。
方法详解¶
整体框架¶
SCSA 由语义连续注意力(SCA)和语义稀疏注意力(SSA)两部分组成,配合语义自适应实例归一化(S-AdaIN)初始化。SCSA 直接替换 Attn-AST 方法中的通用注意力(UA),无需任何训练即可实现语义风格迁移。
关键设计一:语义连续注意力(SCA)¶
- 功能:确保同语义区域内所有位置获得一致的整体风格特征
- 核心思路:使用内容/风格语义图特征 \(F_{csem}, F_{ssem}\) 作为 query 和 key(而非图像特征),然后通过操作 \(G_1\) 将不同语义类别间的注意力权重设为 \(-\infty\)。由于语义图特征不包含图像结构信息,同语义区域内所有 query 点与 key 的注意力权重相同,消除了结构差异导致的风格断裂
- 设计动机:通用注意力基于图像结构匹配,微小结构变化会导致相邻位置的风格化效果不同。SCA 通过忽略结构、仅关注语义,实现语义区域内的风格连续性
关键设计二:语义稀疏注意力(SSA)¶
- 功能:保留原始风格图像的鲜明纹理细节
- 核心思路:使用图像特征作为 query 和 key,但通过操作 \(G_2\) 在注意力图中仅保留每个 query 点在同语义区域内最相似的那一个 key 点的权重(设其余为 \(-\infty\)),使 softmax 后该点权重为 1。最终风格特征直接来自单个最匹配的风格特征点
- 设计动机:加权平均多个风格点会模糊原始纹理。最精确的风格纹理表示存在于单个编码特征点中,sparse 匹配能保留这种鲜明性
关键设计三:语义自适应实例归一化(S-AdaIN)¶
- 功能:为 SSA 提供更准确的 query 特征
- 核心思路:对每个语义区域分别进行 AdaIN,将内容特征的均值/方差对齐到风格特征的对应语义区域,去除原始颜色风格的干扰
- 设计动机:原始颜色信息会干扰结构匹配的准确性,S-AdaIN 提供"纯净"的结构特征作为更好的 query
损失函数¶
无额外训练。SCSA 以即插即用方式替换已有方法的 UA 模块。最终特征融合为 \(F_{cs} = \alpha_1 \times F_{sca} + \alpha_2 \times F_{ssa} + F_c\),其中 \(\alpha_1, \alpha_2\) 控制整体风格和纹理的迁移强度。
实验关键数据¶
主实验:语义风格迁移质量对比¶
| 方法 | SSL ↓ | FID ↓ | CFSD ↓ | 用户偏好 ↑ |
|---|---|---|---|---|
| SANet | 1.6583 | 14.34 | 0.1103 | 16.85% |
| SANet + SCSA | 0.8762 | 13.08 | 0.0874 | 83.15% |
| StyTR2 | 1.9826 | 12.53 | 0.0752 | 15.76% |
| StyTR2 + SCSA | 1.2228 | 12.40 | 0.0705 | 84.24% |
| StyleID | 1.7538 | 12.59 | 0.0916 | 21.92% |
| StyleID + SCSA | 1.2447 | 12.45 | 0.1178 | 78.08% |
消融实验¶
| 配置 | SSL ↓ |
|---|---|
| SANet + SCSA (完整) | 0.8762 |
| - SSA | 0.8840 |
| - SCA | 0.9096 |
| - S-AdaIN | 0.8769 |
关键发现¶
- SCSA 在三种架构(CNN/Transformer/Diffusion)上均大幅提升语义一致性,SSL 指标降低 29-47%
- 用户偏好率从 15-22% 提升到 78-84%,压倒性优势
- 在与 5 种 SOTA 语义风格迁移专用方法对比中,SCSA 加持的 Attn-AST 方法仍然表现优异
- SCA 对语义一致性贡献最大,SSA 对纹理保留贡献最大,两者互补
亮点与洞察¶
- 即插即用设计极有价值:无需训练即可嵌入现有 CNN/Transformer/Diffusion 架构,通用性极强
- 连续+稀疏的互补设计:SCA 提供全局一致风格,SSA 提供局部鲜明纹理,两者分工明确
- 清晰的问题分析:对 Attn-AST 方法在语义风格迁移上失败的三个根因分析透彻
局限与展望¶
- 需要语义分割图作为额外输入,当前使用 K-Means 聚类自动生成,对复杂场景可能不够精确
- I 分支的网格搜索计算开销随候选数线性增长
- 对语义类别数量敏感,过多类别可能导致每个区域特征点过少
- 未探索视频风格迁移场景下的时间一致性
相关工作与启发¶
- SANet:首个将注意力引入任意风格迁移的工作
- StyTR2:Transformer-based 风格迁移的代表
- StyleID:基于扩散模型的风格迁移
- STROTSS:用 EMD 距离匹配语义区域的特征分布
- SCSA 的设计思想(语义感知的注意力约束)可推广到图像编辑、视频生成等需要语义一致性的任务
评分¶
⭐⭐⭐⭐ — 即插即用+无需训练的设计极具实用价值,在三种架构上的一致提升验证了方法的通用性。问题分析清晰,解决方案优雅。需要语义图输入是唯一的额外要求。
相关论文¶
- [CVPR 2025] HSI: A Holistic Style Injector for Arbitrary Style Transfer
- [CVPR 2025] SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer
- [CVPR 2025] Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis
- [CVPR 2025] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
- [CVPR 2025] Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework