Continuous Semi-Implicit Models¶

会议: ICML 2025
arXiv: 2506.06778
代码: 无
领域: 图像生成
关键词: 半隐式分布, 扩散模型蒸馏, 连续时间, 多步生成, 变分推断

一句话总结¶

提出 CoSIM——将层级半隐式模型扩展为连续时间框架，通过连续转移核实现无仿真高效训练，并设计保持一致性的转移核实现分布级别的多步扩散模型蒸馏，在 ImageNet 512×512 上达到或超越现有扩散加速方法。

领域现状：半隐式分布（SI Distribution）在变分推断和生成建模中展现潜力。层级半隐式模型（HSIVI）通过堆叠多个 SI 层增强表达力，可用于加速扩散模型。

现有痛点：HSIVI 的序贯训练（逐层模拟）收敛慢；现有扩散蒸馏方法要么是单步确定性的（缺乏多样性），要么是多步但训练复杂。

核心矛盾：多步生成需要灵活表达力但训练困难。

本文目标：高效训练多步随机生成模型。

切入角度：将离散层级 SI 模型推广到连续时间——连续转移核使训练无需序贯模拟。

核心 idea：连续时间 SI 模型 + 一致性转移核 = 分布级蒸馏的扩散加速。

连续时间半隐式模型:
- 功能：将离散层级模型推广为连续时间
- 核心思路：用 ODE/SDE 定义连续的转移核，避免逐层串行模拟
- 设计动机：连续化使训练可以做无仿真优化
一致性转移核:
- 功能：设计使多步生成等价于单步生成的转移核
- 核心思路：保证 \(q_0(x | z)\) 的边际分布在任何步数下一致
- 设计动机：分布级一致性是蒸馏质量的关键

ImageNet 512×512：

方法	步数	FID ↓	FD-DINOv2 ↓
DDPM (原始)	250	2.1	-
一致性模型	2	3.8	12.5
DMD2	1	3.2	10.8
CoSIM	4	2.5	8.9