SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models¶

元信息¶

会议: ICCV 2025
arXiv: 2508.03402
代码: GitHub
领域: 扩散模型 · 风格内容解耦
关键词: Flow Matching, 风格内容解耦, 可逆映射, CLIP嵌入空间, 数据集构建

一句话总结¶

提出SCFlow，通过Flow Matching学习风格和内容的可逆合并映射，利用映射的可逆性让解耦作为合并过程的自然涌现属性，无需显式解耦监督。

研究背景与动机¶

风格与内容的显式解耦面临根本困难： 1. 两者语义重叠，边界主观且模糊 2. 缺乏"干净"的风格/内容真值标注 3. 现有方法（生成式或判别式）都需要预定义分离标准

核心洞察：与其直接解耦（困难、模糊），不如学习合并（明确、有据可循）。如果合并过程可逆，那么解耦自然涌现。

为什么选Flow Matching： - 扩散模型和Normalizing Flows需要一端为高斯分布，不适合两端都是真实数据分布的情况 - Flow Matching可在任意分布间学习双向ODE映射，完美适合从解耦分布$p_0$到合并分布$p_1$的映射

方法详解¶

整体框架¶

在CLIP嵌入空间中操作（避免像素空间的低级偏置），将解耦的风格/内容对映射到合并表示。

端分布定义¶

解耦端$p_0$（拼接两个嵌入）： $$x_0 = [z_{c_i, s_*}, z_{c_*, s_j}]$$

合并端$p_1$（重复同一嵌入）： $$x_1 = [z_{c_i, s_j}, z_{c_i, s_j}]$$

$*$表示任意实例。这种不对称构造的精妙之处在于：$x_0$包含多余信息（$s_*$和$c_*$），模型必须学会1）丢弃无关信息；2）从纠缠表示中提取有用的$s_j$和$c_i$。

Flow Matching训练¶

前向路径： $$x_t = (1-t) x_0 + t \cdot x_1$$

速度场训练目标： $$\mathcal{L}(\theta) = \int_0^T \mathbb{E}[\|v_\theta(x_t, t) - \dot{\alpha}_t x_0 - \dot{\sigma}_t x_1\|^2] \mathrm{d}t$$

双向推理¶

正向（合并）：$z_{c_i, s_j} = \text{mean}(\text{ODESolve}([z_{c_i,s_*}, z_{c_*,s_j}])_{[0,1]})$

反向（解耦）：$[z_{c_i, \bar{s}}, z_{\bar{c}, s_j}] = \text{ODESolve}(\text{repeat}[z_{c_i, s_j}])_{[1,0]}$

仅训练正向即可，反向通过ODE求解器的逆向积分实现。

数据集构建¶

510,000样本 = 51种风格 × 10,000内容实例，全组合覆盖： - 内容图像从Pexels爬取 - 风格变体通过ControlNet生成 - 每个风格包含所有内容，每个内容包含所有风格

实验¶

定量：嵌入空间质量（NMI + FDR）¶

方法	内容NMI↑	风格NMI↑	内容FDR↑	风格FDR↑
CLIP	0.537	0.402	0.431	0.296
DEADiff	0.506	0.414	0.557	0.338
CSD	0.335	0.724	0.308	0.633
SCFlow	0.836	0.870	2.169	3.518

SCFlow在内容和风格上均以大幅度领先，风格FDR比CLIP高一个数量级。

零样本泛化¶

任务	方法	关键指标
ImageNet-1k kNN分类	CLIP	Acc@1=67.10%
	SCFlow	Acc@1=66.25%
WikiArt风格检索	CLIP	Recall@1=59.40%
	CSD	Recall@1=64.56%
	SCFlow	Recall@1=65.34%

内容分类性能接近CLIP（-0.85%），风格检索超越所有方法。表明解耦表示可泛化到训练未见的内容和风格。

关键发现¶

反向推理产生的内容表示不含风格信息，风格表示不含特定内容——解耦高度纯净
线性插值产生连续语义过渡（CLIP空间跳变），t-SNE显示类别聚类更紧凑
默认NFE=1即可获得良好结果，表明学到的映射路径近乎直线

亮点与洞察¶

哲学层面的创新："不解耦，而合并"的反直觉思路，通过可逆性实现隐式解耦
数据工程精巧：全组合覆盖的数据集设计使模型能观察风格/内容独立变化
不对称三元组：$x_0$故意包含冗余信息，迫使模型学会过滤和提取
零样本泛化：仅在合成数据上训练却能泛化到ImageNet和WikiArt

局限性¶

依赖CLIP编码器，表示能力受限于CLIP的预训练知识
可视化依赖unCLIP解码器，解码质量影响结果展示
51种风格的多样性有限，更多风格可能需要规模化
Flow Matching的ODE求解在高NFE时存在误差累积

评分¶

新颖性：★★★★★ — "可逆合并实现隐式解耦"的思路非常独到
技术深度：★★★★☆ — 数学建模优雅，实验验证充分
实用性：★★★☆☆ — 解耦本身有价值但下游应用场景待拓展