SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models¶
元信息¶
- 会议: ICCV 2025
- arXiv: 2508.03402
- 代码: GitHub
- 领域: 扩散模型 · 风格内容解耦
- 关键词: Flow Matching, 风格内容解耦, 可逆映射, CLIP嵌入空间, 数据集构建
一句话总结¶
提出SCFlow,通过Flow Matching学习风格和内容的可逆合并映射,利用映射的可逆性让解耦作为合并过程的自然涌现属性,无需显式解耦监督。
研究背景与动机¶
风格与内容的显式解耦面临根本困难: 1. 两者语义重叠,边界主观且模糊 2. 缺乏"干净"的风格/内容真值标注 3. 现有方法(生成式或判别式)都需要预定义分离标准
核心洞察:与其直接解耦(困难、模糊),不如学习合并(明确、有据可循)。如果合并过程可逆,那么解耦自然涌现。
为什么选Flow Matching: - 扩散模型和Normalizing Flows需要一端为高斯分布,不适合两端都是真实数据分布的情况 - Flow Matching可在任意分布间学习双向ODE映射,完美适合从解耦分布\(p_0\)到合并分布\(p_1\)的映射
方法详解¶
整体框架¶
在CLIP嵌入空间中操作(避免像素空间的低级偏置),将解耦的风格/内容对映射到合并表示。
端分布定义¶
解耦端\(p_0\)(拼接两个嵌入): $\(x_0 = [z_{c_i, s_*}, z_{c_*, s_j}]\)$
合并端\(p_1\)(重复同一嵌入): $\(x_1 = [z_{c_i, s_j}, z_{c_i, s_j}]\)$
\(*\)表示任意实例。这种不对称构造的精妙之处在于:\(x_0\)包含多余信息(\(s_*\)和\(c_*\)),模型必须学会1)丢弃无关信息;2)从纠缠表示中提取有用的\(s_j\)和\(c_i\)。
Flow Matching训练¶
前向路径: $\(x_t = (1-t) x_0 + t \cdot x_1\)$
速度场训练目标: $\(\mathcal{L}(\theta) = \int_0^T \mathbb{E}[\|v_\theta(x_t, t) - \dot{\alpha}_t x_0 - \dot{\sigma}_t x_1\|^2] \mathrm{d}t\)$
双向推理¶
正向(合并):\(z_{c_i, s_j} = \text{mean}(\text{ODESolve}([z_{c_i,s_*}, z_{c_*,s_j}])_{[0,1]})\)
反向(解耦):\([z_{c_i, \bar{s}}, z_{\bar{c}, s_j}] = \text{ODESolve}(\text{repeat}[z_{c_i, s_j}])_{[1,0]}\)
仅训练正向即可,反向通过ODE求解器的逆向积分实现。
数据集构建¶
510,000样本 = 51种风格 × 10,000内容实例,全组合覆盖: - 内容图像从Pexels爬取 - 风格变体通过ControlNet生成 - 每个风格包含所有内容,每个内容包含所有风格
实验¶
定量:嵌入空间质量(NMI + FDR)¶
| 方法 | 内容NMI↑ | 风格NMI↑ | 内容FDR↑ | 风格FDR↑ |
|---|---|---|---|---|
| CLIP | 0.537 | 0.402 | 0.431 | 0.296 |
| DEADiff | 0.506 | 0.414 | 0.557 | 0.338 |
| CSD | 0.335 | 0.724 | 0.308 | 0.633 |
| SCFlow | 0.836 | 0.870 | 2.169 | 3.518 |
SCFlow在内容和风格上均以大幅度领先,风格FDR比CLIP高一个数量级。
零样本泛化¶
| 任务 | 方法 | 关键指标 |
|---|---|---|
| ImageNet-1k kNN分类 | CLIP | Acc@1=67.10% |
| SCFlow | Acc@1=66.25% | |
| WikiArt风格检索 | CLIP | Recall@1=59.40% |
| CSD | Recall@1=64.56% | |
| SCFlow | Recall@1=65.34% |
内容分类性能接近CLIP(-0.85%),风格检索超越所有方法。表明解耦表示可泛化到训练未见的内容和风格。
关键发现¶
- 反向推理产生的内容表示不含风格信息,风格表示不含特定内容——解耦高度纯净
- 线性插值产生连续语义过渡(CLIP空间跳变),t-SNE显示类别聚类更紧凑
- 默认NFE=1即可获得良好结果,表明学到的映射路径近乎直线
亮点与洞察¶
- 哲学层面的创新:"不解耦,而合并"的反直觉思路,通过可逆性实现隐式解耦
- 数据工程精巧:全组合覆盖的数据集设计使模型能观察风格/内容独立变化
- 不对称三元组:\(x_0\)故意包含冗余信息,迫使模型学会过滤和提取
- 零样本泛化:仅在合成数据上训练却能泛化到ImageNet和WikiArt
局限性¶
- 依赖CLIP编码器,表示能力受限于CLIP的预训练知识
- 可视化依赖unCLIP解码器,解码质量影响结果展示
- 51种风格的多样性有限,更多风格可能需要规模化
- Flow Matching的ODE求解在高NFE时存在误差累积
相关工作¶
- Flow Matching: 条件Flow Matching, Rectified Flow
- 风格迁移: Neural Style Transfer, DEADiff, CSGO
- 对比学习: CLIP, CSD, 自监督方法
评分¶
- 新颖性:★★★★★ — "可逆合并实现隐式解耦"的思路非常独到
- 技术深度:★★★★☆ — 数学建模优雅,实验验证充分
- 实用性:★★★☆☆ — 解耦本身有价值但下游应用场景待拓展
相关论文¶
- [ICCV 2025] Joint Diffusion Models in Continual Learning
- [ICCV 2025] Learning to See in the Extremely Dark
- [ICCV 2025] REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder
- [ICCV 2025] MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation
- [ICLR 2026] Intention-Conditioned Flow Occupancy Models