Stroke2Sketch: Harnessing Stroke Attributes for Training-Free Sketch Generation¶

会议: ICCV 2025
arXiv: 2510.16319
代码: https://github.com/rane7/Stroke2Sketch
领域: 素描生成 / 风格迁移
关键词: 素描生成, 笔触属性迁移, 无训练, 扩散模型, 跨图像注意力

一句话总结¶

提出 Stroke2Sketch，一个无训练的参考式素描生成框架，通过跨图像笔触注意力（CSA）、指导性注意力模块（DAM）和语义保持模块（SPM）三个模块协同工作，在预训练扩散模型中实现精细的笔触属性迁移与内容结构保持。

研究背景与动机¶

参考式素描生成的目标是：给定一张内容图像和一张参考素描，生成一幅保持内容结构但采用参考笔触风格（线条粗细、曲率、纹理疏密等）的素描。这一任务面临三个基本挑战：

语义感知的笔触迁移：需要将参考笔触属性精确映射到语义对应的内容区域，而非简单的全局风格混合

前景优先：人类画家自然地用丰富的笔触强调前景、简化背景，但现有方法对所有区域施加均匀风格化

内容-风格平衡：素描通过线条编码内容，内容泄露（content leakage）会破坏关键边缘结构

现有方法的不足： - 训练式方法（Ref2Sketch、Semi-Ref2Sketch）：对未见风格泛化失败（灾难性遗忘） - 基于 IP-Adapter/InstantStyle：擅长纹理迁移但结构完整性差（跨注意力中的内容泄露） - ControlNet 增强：结构保持过于刚性，牺牲风格灵活性 - 渐进式笔触方法（RB-Modulation）：均匀笔触导致语义不一致

核心 idea：笔触属性（线条粗细、曲率、纹理疏密）本质上编码在预训练扩散模型的自注意力和交叉注意力关系中。通过动态对齐内容与参考特征之间的注意力模式，可以在不破坏结构的情况下实现风格迁移。

方法详解¶

整体框架¶

输入：内容图像 \(I^{cnt}\) 和参考素描 \(I^{ref}\)。通过 DDPM 反演获取三者的潜在表示：内容、参考和轮廓（由 TEED 边缘检测器提取）。在去噪过程中通过三个模块协同生成风格化素描。

关键设计¶

跨图像笔触注意力（CSA）：在扩散模型的自注意力层中进行 Key-Value 交换。将参考素描的 K/V 特征与内容图像的 K/V 特征混合后注入生成过程：

\(K^{ske}_t = K^{ref}_t + \alpha K^{cnt}_t, \quad V^{ske}_t = V^{ref}_t + \alpha V^{cnt}_t\)

其中 \(\alpha\) 控制参考与内容的混合比例。这种方式不同于直接的特征混合（如 InstantStyle），而是通过注意力机制让笔触特征自然地映射到语义对应区域。但直接 K-V 交换可能扭曲某些结构元素（如曲线），因此需要后续模块配合。

指导性注意力模块（DAM）：解决前景/背景不均匀风格化问题。具体流程：
- 提取 32×32 分辨率的自注意力特征图 \(F_{SA}\)，通过通道平均聚合
- 使用 KMeans 聚类获得分割掩码 \(M_j\)
- 利用 BLIP 提取的名词的交叉注意力图 \(A_n\) 计算每个聚类与前景的相关性分数：\(r(j,n) = \frac{\sum M_j \cdot A_n}{\sum M_j + \delta}\)
- 相关性 > 0.35 的聚类标记为前景，抑制背景区域的风格迁移
语义保持模块（SPM）：解决参考素描与内容图像语义不匹配时的噪声和错位问题。双重指导：
- 文本引导：通过 CLIP 损失 \(L_{sem} = \lambda \cdot \text{CLIP}(I^{ske}, T^{cnt})\) 保持高层语义
- 轮廓引导：将 DDPM 反演过程中缓存的轮廓查询特征注入生成查询：\(Q^{ske}_{i+1} = \gamma Q^{cont}_i + (1-\gamma) Q^{ske}_i\)（默认 \(\gamma=0.25\)），轮廓作为"软约束"而非 ControlNet 式的刚性约束
笔触细节传播增强（SDPE）：通过自适应对比度增强 \(\text{Enhance}(A) = (A - \mu(A))\zeta(\sigma(A)) + \mu(A)\) 抑制低对比度噪声。并行双通道 CFG：一路使用跨图像注意力捕捉笔触特征，一路使用文本引导保持语义，最终 noise 预测为：

\(\epsilon^t = \epsilon^{self} + \beta_{sg}(\epsilon^{\times}_{stroke} - \epsilon^{self}) + \beta_{text}(\epsilon^{\times}_{text} - \epsilon^{self})\)

训练策略¶

完全无训练——基于预训练 Stable Diffusion v2.1-base，使用 DDPM 反演进行图像反转，DDIM 50 步去噪。所有模块通过操作注意力层实现，不修改网络参数。

实验关键数据¶

主实验（Stroke2Sketch-dataset）¶

方法	ArtFID ↓	LPIPS ↓	FID ↓
Ref2sketch	45.292	0.6982	34.650
Semi-ref	33.242	0.5306	24.359
IP-Adapter	33.457	0.6634	24.068
InstantStyle	32.532	0.5432	23.940
InstantStyle+	37.656	0.6532	26.632
StyleID	35.727	0.5426	25.658
Ours	32.455	0.5315	22.435

消融实验¶

配置	ArtFID ↓	FID ↓	LPIPS ↓
A: Full（Ours）	32.45	22.43	0.530
B: - DAM	38.67	26.53	0.672
C: - SPM	36.89	30.47	0.637
D: - SDPE	40.53	32.44	0.598

去除 SDPE 的退化最严重（ArtFID 从 32.45 涨到 40.53），说明细节传播增强对最终质量至关重要。

关键发现¶

用户研究（2000 票 / 100 用户）：Stroke2Sketch 在内容提取、笔触风格化和整体偏好三个维度均获得最高偏好
在 FS2K 人脸素描数据集上，方法也取得最低 FID（128.84 vs 次优 185.26）和 LPIPS（0.4057 vs 0.4540）
支持彩色素描生成（Fig. 9），保持参考笔触特征和艺术风格
超参数 \(\gamma\)（轮廓权重）、\(\beta_{sg}\)（笔触引导尺度）、\(\zeta\)（对比度强度）提供了灵活的用户控制接口

亮点与洞察¶

问题定义精准：明确区分"笔触属性迁移"与一般的"风格迁移"，前者需要更细粒度的语义对应
三模块设计互补：CSA 负责笔触注入、DAM 负责区域选择、SPM 负责结构约束，解耦清晰
利用扩散模型自注意力的聚类来实现无监督前景分割（无需额外分割模型），设计巧妙
完全无训练：不需要素描数据集，不需要微调，任何参考风格即可适用

局限与展望¶

对过于简约（如单线条连续画）或过于复杂（密集细笔触）的参考素描处理效果不佳
无法完全解耦语义信息和笔触属性——某些情况下语义泄露仍然存在
依赖 BLIP 的文本提取质量和 TEED 的边缘检测质量
多超参数需要根据风格类型手动调整（\(\gamma\), \(\beta_{sg}\), \(\zeta\)）

评分¶

新颖性：⭐⭐⭐⭐ — 跨图像笔触注意力机制 + 无监督前景聚焦是新设计
理论深度：⭐⭐⭐ — 以工程设计为主，缺乏形式化理论分析
实验充分度：⭐⭐⭐⭐ — 多基线对比、消融完整、用户研究有说服力
实用性：⭐⭐⭐⭐ — 无训练即用，但超参数调整有一定门槛