跳转至

SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

元信息

  • 会议: ICCV 2025
  • arXiv: 2508.03402
  • 代码: GitHub
  • 领域: 扩散模型 · 风格内容解耦
  • 关键词: Flow Matching, 风格内容解耦, 可逆映射, CLIP嵌入空间, 数据集构建

一句话总结

提出SCFlow,通过Flow Matching学习风格和内容的可逆合并映射,利用映射的可逆性让解耦作为合并过程的自然涌现属性,无需显式解耦监督。

研究背景与动机

风格与内容的显式解耦面临根本困难: 1. 两者语义重叠,边界主观且模糊 2. 缺乏"干净"的风格/内容真值标注 3. 现有方法(生成式或判别式)都需要预定义分离标准

核心洞察:与其直接解耦(困难、模糊),不如学习合并(明确、有据可循)。如果合并过程可逆,那么解耦自然涌现。

为什么选Flow Matching: - 扩散模型和Normalizing Flows需要一端为高斯分布,不适合两端都是真实数据分布的情况 - Flow Matching可在任意分布间学习双向ODE映射,完美适合从解耦分布\(p_0\)到合并分布\(p_1\)的映射

方法详解

整体框架

在CLIP嵌入空间中操作(避免像素空间的低级偏置),将解耦的风格/内容对映射到合并表示。

端分布定义

解耦端\(p_0\)(拼接两个嵌入): $\(x_0 = [z_{c_i, s_*}, z_{c_*, s_j}]\)$

合并端\(p_1\)(重复同一嵌入): $\(x_1 = [z_{c_i, s_j}, z_{c_i, s_j}]\)$

\(*\)表示任意实例。这种不对称构造的精妙之处在于:\(x_0\)包含多余信息(\(s_*\)\(c_*\)),模型必须学会1)丢弃无关信息;2)从纠缠表示中提取有用的\(s_j\)\(c_i\)

Flow Matching训练

前向路径: $\(x_t = (1-t) x_0 + t \cdot x_1\)$

速度场训练目标: $\(\mathcal{L}(\theta) = \int_0^T \mathbb{E}[\|v_\theta(x_t, t) - \dot{\alpha}_t x_0 - \dot{\sigma}_t x_1\|^2] \mathrm{d}t\)$

双向推理

正向(合并)\(z_{c_i, s_j} = \text{mean}(\text{ODESolve}([z_{c_i,s_*}, z_{c_*,s_j}])_{[0,1]})\)

反向(解耦)\([z_{c_i, \bar{s}}, z_{\bar{c}, s_j}] = \text{ODESolve}(\text{repeat}[z_{c_i, s_j}])_{[1,0]}\)

仅训练正向即可,反向通过ODE求解器的逆向积分实现。

数据集构建

510,000样本 = 51种风格 × 10,000内容实例,全组合覆盖: - 内容图像从Pexels爬取 - 风格变体通过ControlNet生成 - 每个风格包含所有内容,每个内容包含所有风格

实验

定量:嵌入空间质量(NMI + FDR)

方法 内容NMI↑ 风格NMI↑ 内容FDR↑ 风格FDR↑
CLIP 0.537 0.402 0.431 0.296
DEADiff 0.506 0.414 0.557 0.338
CSD 0.335 0.724 0.308 0.633
SCFlow 0.836 0.870 2.169 3.518

SCFlow在内容和风格上均以大幅度领先,风格FDR比CLIP高一个数量级。

零样本泛化

任务 方法 关键指标
ImageNet-1k kNN分类 CLIP Acc@1=67.10%
SCFlow Acc@1=66.25%
WikiArt风格检索 CLIP Recall@1=59.40%
CSD Recall@1=64.56%
SCFlow Recall@1=65.34%

内容分类性能接近CLIP(-0.85%),风格检索超越所有方法。表明解耦表示可泛化到训练未见的内容和风格。

关键发现

  1. 反向推理产生的内容表示不含风格信息,风格表示不含特定内容——解耦高度纯净
  2. 线性插值产生连续语义过渡(CLIP空间跳变),t-SNE显示类别聚类更紧凑
  3. 默认NFE=1即可获得良好结果,表明学到的映射路径近乎直线

亮点与洞察

  1. 哲学层面的创新:"不解耦,而合并"的反直觉思路,通过可逆性实现隐式解耦
  2. 数据工程精巧:全组合覆盖的数据集设计使模型能观察风格/内容独立变化
  3. 不对称三元组\(x_0\)故意包含冗余信息,迫使模型学会过滤和提取
  4. 零样本泛化:仅在合成数据上训练却能泛化到ImageNet和WikiArt

局限性

  • 依赖CLIP编码器,表示能力受限于CLIP的预训练知识
  • 可视化依赖unCLIP解码器,解码质量影响结果展示
  • 51种风格的多样性有限,更多风格可能需要规模化
  • Flow Matching的ODE求解在高NFE时存在误差累积

相关工作

  • Flow Matching: 条件Flow Matching, Rectified Flow
  • 风格迁移: Neural Style Transfer, DEADiff, CSGO
  • 对比学习: CLIP, CSD, 自监督方法

评分

  • 新颖性:★★★★★ — "可逆合并实现隐式解耦"的思路非常独到
  • 技术深度:★★★★☆ — 数学建模优雅,实验验证充分
  • 实用性:★★★☆☆ — 解耦本身有价值但下游应用场景待拓展

相关论文