跳转至

Kuramoto Orientation Diffusion Models

会议: NeurIPS 2025
arXiv: 2509.15328
代码: GitHub
领域: 扩散模型 / 图像生成
关键词: Kuramoto模型, 同步动力学, 方向场, 周期域, score-based生成模型

一句话总结

将生物系统中的Kuramoto同步动力学引入score-based生成模型,在周期域上构建前向同步/反向去同步的扩散框架,对指纹、纹理等方向密集数据实现显著优于标准扩散模型的生成质量,同时在CIFAR-10上保持竞争力。

研究背景与动机

指纹、纹理、地形等方向密集图像的核心结构由局部方向角决定,而非像素强度。这类数据本质上存在于周期域中,标准扩散模型使用各向同性欧几里得扩散来建模这些角度数据时存在三个根本问题:

周期性忽略:常规扩散将数据视为欧几里得空间中的连续量,未考虑角度的周期特性(\(-\pi\)\(\pi\) 是同一点),导致在边界处产生伪影

各向同性噪声缺乏结构:标准前向过程使用各向同性高斯噪声,快速破坏方向相干性,对结构化方向模式不利

生成效率低:由于噪声破坏缺乏结构,需要更多扩散步数才能生成高质量方向密集图像

作者从生物神经系统中的相位同步现象获得灵感——Kuramoto模型描述耦合振荡器如何自发产生全局相干性。这种同步行为可以作为结构化图像生成的归纳偏置:让局部方向相互增强,边缘对齐、脊线连贯、流场平滑。

方法详解

整体框架

将像素映射为角度相位变量 \(\theta_t^i \in [-\pi, \pi]\),构建基于随机Kuramoto动力学的前向-反向扩散过程。前向过程通过同步逐渐将数据压缩到低熵的von Mises分布;反向过程通过学习的score函数进行去同步,从同步态生成多样化模式。

关键设计

  1. 随机Kuramoto前向过程

核心SDE为:

$\(\frac{d\theta_t^i}{dt} = \frac{1}{N}\sum_{j=1}^{N}K(t)\sin(\theta_t^j - \theta_t^i) + K_{\text{ref}}(t)\sin(\psi_{\text{ref}} - \theta_t^i) + \sqrt{2D_t}\xi^i\)$

三个力学项各有作用:(a) 振荡器间的Kuramoto正弦耦合拉近相似相位;(b) 吸引到全局参考相位 \(\psi_{\text{ref}}\) 确保最终收敛方向;(c) 随机噪声 \(\sqrt{2D_t}\xi^i\) 注入破坏性扰动。维持 \(K_{\text{ref}}(t) > D_t > K(t)\) 的关系来平衡结构与噪声。

在准平衡态下,终端分布近似为von Mises分布(圆上的高斯分布):

$\(p_{\text{st}}(\theta) \approx \frac{1}{Z}\exp\left(\frac{K(T)r(T)+K_{\text{ref}}(T)}{D_T}\cos(\psi_{\text{ref}}-\theta)\right)\)$

  1. 局部耦合变体

全局耦合要求每个振荡器与所有其他振荡器交互,计算开销大且不符合图像的空间局部性。局部耦合变体将交互限制在邻域 \(\mathcal{N}_i\) 内:

$\(\frac{d\theta_t^i}{dt} = \frac{1}{|\mathcal{N}_i|}\sum_{j \in \mathcal{N}_i}K(t)\sin(\theta_t^j - \theta_t^i) + K_{\text{ref}}(t)\sin(\psi_{\text{ref}} - \theta_t^i) + \sqrt{2D_t}\xi^i\)$

局部耦合引入空间非均匀性,产生类似热扩散的模糊效果,更符合图像数据的空间相关性。

  1. Wrapped Gaussian转移核与周期感知网络

由于相位缠绕,局部转移概率遵循Wrapped Gaussian分布(截断求和近似,\(K=3\)项)。score网络采用正弦嵌入 \([\sin(\theta), \cos(\theta)]\) 作为输入,网络输出两个笛卡尔分量 \(s_1, s_2\),通过角域投影保证周期一致性:

$\(s(\theta, t) = s_1(\theta, t)\cos(\theta) + s_2(\theta, t)\sin(\theta)\)$

损失函数 / 训练策略

训练基于Local Score Matching,利用前向转移核的Monte Carlo采样估计loss:

\[\mathcal{L} = \frac{1}{M}\sum_{m=0}^{M-1}\left(2D_t\|s(\theta_t^m, t) - \nabla_{\theta_t^m}\log p(\theta_t^m|\theta_{t-1})\|^2\right)\]

每步先模拟前向马尔可夫链得到 \(\theta_{t-1}\),再从局部转移核采样 \(M=5\)\(\theta_t\) 样本。像素从 \([-1,1]\) 映射到 \([-0.9\pi, 0.9\pi]\),预留边界间距避免相位缠绕导致的混叠。

实验关键数据

主实验

数据集 步数 SGM Kuramoto(全局) Kuramoto(局部) 局部提升
SOCOFing指纹 100 104.92 74.41 67.49 -35.7%
SOCOFing指纹 1000 23.84 20.64 18.75 -21.4%
Brodatz纹理 100 38.33 20.26 18.47 -51.8%
Brodatz纹理 1000 20.37 15.42 14.19 -30.3%
地形 100 114.90 101.65 92.86 -19.2%
地形 1000 33.79 33.56 30.62 -9.4%

CIFAR-10对比

步数 SGM Kuramoto(全局) Kuramoto(局部)
100 38.04 29.96 28.17
300 25.76 25.83 24.86
1000 3.17 11.58 10.79

关键发现

  1. 方向密集数据上优势巨大:在Brodatz纹理100步设定下,Kuramoto模型FID比SGM低近52%,且100步Kuramoto的性能接近或超过SGM 1000步
  2. 少步数优势明显:同步前向过程使得数据更快收敛到终端分布,反向过程能以更少步数生成高质量样本
  3. CIFAR-10上的权衡:在少步数配置下Kuramoto大幅优于SGM(100步FID 28.17 vs 38.04),但1000步时SGM更优(3.17 vs 10.79),说明针对无强方向先验的自然图像,过多步数下同步偏置会略限制表达力
  4. 层次化生成:反向过程呈现从粗到细的层次生成——先建立全局结构,再逐步添加细节

亮点与洞察

  1. 生物启发的深度融合:不是简单类比,而是将Kuramoto同步动力学严格嵌入扩散模型SDE框架,数学上自洽
  2. 非各向同性扩散的价值:传统认为各向同性高斯噪声是扩散模型的标配,本文证明结构化的非各向同性噪声在特定领域有显著优势
  3. 同步→FID收益的清晰机制:同步偏置保留早期全局结构,使得反向过程有更好的起点,直接解释了少步数下的FID优势

局限与展望

  • 训练每步需 \(\mathcal{O}(T)\) 前向链模拟成本(可通过预计算缓存缓解)
  • 在自然图像(缺乏方向先验)上1000步时不如SGM,结构化偏置可能限制长程灵活性
  • 目前仅在32×32到128×128分辨率验证,高分辨率扩展性待考察
  • 局部耦合邻域大小的选择缺乏自适应机制

相关工作与启发

  • 几何感知扩散模型: Riemannian Flow Matching, 超球面VAE等在非欧几里得流形上的生成模型
  • 神经振荡: AKOrN框架用Kuramoto振荡器替代阈值激活函数
  • 结构化扩散: 模糊扩散模型(Rissanen et al.)用热方程做前向过程

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将Kuramoto同步动力学引入生成模型,理论构造精巧
  • 实验充分度: ⭐⭐⭐⭐☆ — 多数据集多步数对比充分,但缺少高分辨率和大规模实验
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、理论推导完整、可视化丰富
  • 价值: ⭐⭐⭐⭐☆ — 开辟了非线性动力学驱动生成模型的新方向,对方向密集数据应用价值高

相关论文