跳转至

🎨 图像生成

🧪 ICML2025 · 115 篇论文解读

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

将预训练扩散/flow matching模型的score函数解释为随机动力学的漂移项,通过最小化Onsager-Machlup (OM)作用量泛函实现零样本转移路径采样,无需任务特定训练即可在分子系统上高效生成多样且物理真实的转移路径。

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

本文提出将预训练生成模型(扩散模型和流匹配)的 score 函数解释为随机动力学中的漂移项,通过最小化 Onsager-Machlup (OM) 作用泛函来零样本复用预训练模型进行分子系统的过渡路径采样 (TPS),在丙氨酸二肽、快速折叠蛋白等系统上以远低于传统方法的计算成本获得了物理真实的过渡路径。

All-atom Diffusion Transformers: Unified Generative Modelling of Molecules and Materials

提出 All-atom Diffusion Transformer (ADiT),通过 VAE 将分子和晶体映射到统一潜空间、再用 Diffusion Transformer 在潜空间生成的两阶段框架,首次实现单一模型同时生成周期性材料(晶体)和非周期性分子系统,在 MP20、QM9、GEOM-DRUGS 上达到 SOTA,且比等变扩散模型快一个数量级。

Angle Domain Guidance: Latent Diffusion Requires Rotation Rather Than Extrapolation

发现 Classifier-Free Guidance (CFG) 导致颜色失真的根本原因是潜空间样本范数被放大,提出 Angle Domain Guidance (ADG) 算法——在角度域而非幅度域增强引导,约束范数变化的同时优化角度对齐,在高引导权重下消除颜色饱和度异常并保持甚至改善文本-图像对齐。

Annealing Flow Generative Models Towards Sampling High-Dimensional and Multi-Modal Distributions

提出 Annealing Flow (AF)——基于连续归一化流(CNF)的高维多模态分布采样方法,用动态最优传输(OT)目标配合 Wasserstein 正则化训练,通过退火过程引导模式探索,在高维多模态设置中大幅优于现有 NF 和 MCMC 方法。

Autoencoder-Based Hybrid Replay for Class-Incremental Learning

提出基于自编码器的混合重放策略(AHR),利用混合自编码器(HAE)将样本压缩存储在潜空间中而非原始输入空间,结合带电粒子系统能量最小化(CPSEM)和斥力算法(RFA)增量嵌入新类质心,在最坏情况下将内存复杂度从 \(\mathcal{O}(t)\) 降低到 \(\mathcal{O}(0.1t)\),同时保持 SOTA 性能。

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

提出偏好嵌入(Preference Embedding)——将响应嵌入到多维潜空间中捕捉复杂偏好结构(包括不可传递偏好),实现 \(O(K)\) 的查询复杂度(与 BT 模型相同但表达力更强),配合 General Preference Optimization (GPO) 在 RewardBench 和 AlpacaEval2.0 上超越 BT 奖励模型。

Beyond One-Hot Labels: Semantic Mixing for Model Calibration

提出 CSM(Calibration-aware Semantic Mixing)——利用预训练扩散模型生成高保真的语义混合样本(如猫-狗混合体),并通过 CLIP 重标注精确的软标签置信度,用 \(L_2\) 损失训练实现比现有校准方法更优的模型置信度校准。

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

提出 BinauralFlow,一个基于条件 Flow Matching 的流式双耳语音合成框架,通过因果 U-Net 架构和连续推理管线实现高保真、可流式生成的双耳音频,感知测试中 42% 的混淆率表明生成结果几乎无法与真实录音区分。

BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling

提出 Bridge 框架,通过 LLM 多智能体系统生成高质量文本-时序配对数据,并利用语义原型与文本描述的混合提示驱动扩散模型,实现跨域、实例级别的文本控制时序生成(Text-Controlled TSG),在12个数据集中11个取得SOTA。

Broadband Ground Motion Synthesis by Diffusion Model with Minimal Condition

提出 HEGGS(High-fidelity Earthquake Groundmotion Generation System),利用地震数据集中波形天然可配对的特性,结合条件隐扩散模型与 ACM 振幅校正模块,仅需最少条件信息(经纬度、震源深度、震级)即可端到端生成高保真三分量地震波形。

Compositional Flows for 3D Molecule and Synthesis Pathway Co-design

提出 CGFlow(Compositional Generative Flows)——将 flow matching 扩展到组合对象的逐步生成,交织组合结构采样(合成路径)和连续状态传输(3D 构象),作为 3DSynthFlow 应用于可合成药物设计,在 LIT-PCBA 15个靶标上首次同时达到结合亲和力和可合成性的 SOTA。

Compositional Scene Understanding through Inverse Generative Modeling

本文提出逆生成建模(IGM)框架,将场景理解任务转化为在组合式生成模型中寻找最优条件参数的反演问题,通过将多个小型扩散模型组合来表示复杂场景,实现了强分布外泛化能力,并可直接利用预训练文生图模型进行零样本多目标感知。

ContinualFlow: Learning and Unlearning with Neural Flow Matching

提出 ContinualFlow,一种基于 Flow Matching 的生成模型定向遗忘框架,通过能量函数重加权软性减去数据分布中不需要的区域,无需重新训练或直接访问待遗忘样本即可实现高效遗忘。

Continuous Semi-Implicit Models

提出 CoSIM——将层级半隐式模型扩展为连续时间框架,通过连续转移核实现无仿真高效训练,并设计保持一致性的转移核实现分布级别的多步扩散模型蒸馏,在 ImageNet 512×512 上达到或超越现有扩散加速方法。

Continuous Visual Autoregressive Generation via Score Maximization

提出连续视觉自回归框架——基于严格适当评分规则理论,用能量分数作为无似然训练目标,替代向量量化实现连续token自回归图像生成,EAR-H达到FID 1.97且推理速度比扩散损失方法MAR快约10倍。

DCTdiff: Intriguing Properties of Image Generative Modeling in the DCT Space

提出 DCTdiff,首次在离散余弦变换(DCT)频域空间中进行端到端扩散图像生成,无需 VAE 即可无缝扩展至 512×512 分辨率,并在生成质量和训练效率上均优于像素空间扩散模型。

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

提出了一个在任意状态空间上构建多模态扩散模型的统一框架,通过为每种模态引入独立的解耦噪声调度(decoupled noise schedule),在单个模型中同时实现无条件生成和模态条件生成,无需外部的 tokenizer 或 VAE 预处理。

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

提出 DiffusionVLA (DiVLA),将自回归 VLM 的推理能力与扩散模型的动作生成能力统一到一个端到端框架中,通过推理注入模块(Reasoning Injection Module)将自生成的语言推理直接嵌入策略学习过程,实现了对未见物体的泛化分类、可解释的动作决策以及高速推理(2B 模型 82Hz)。

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is also a GAN Discriminator

DDO 提出将似然模型本身参数化为 GAN 判别器(通过似然比),无需额外判别器网络即可用 GAN 目标微调预训练的扩散/自回归模型,在 CIFAR-10 和 ImageNet 上大幅刷新 FID 记录(EDM: 1.97→1.38, EDM2-S: 1.58→0.97)。

Directed Graph Grammars for Sequence-based Learning

提出 DIGGED,通过无歧义上下文无关图文法将 DAG 无损映射为唯一的产生式规则序列,结合 Transformer 解码器实现图生成/属性预测/贝叶斯优化,在神经架构搜索、贝叶斯网络和电路设计三个任务上全面超越现有方法。

Discriminative Policy Optimization for Token-Level Reward Models

提出 Q-function Reward Model (Q-RM),通过将奖励建模与语言生成解耦,定义判别式策略来学习 token 级 Q 函数,从偏好数据中无需细粒度标注即可获得精确的 token 级奖励信号,显著提升 PPO/REINFORCE 的推理性能与训练效率。

Distillation of Discrete Diffusion through Dimensional Correlations (Di4C)

提出Di4C方法,通过"mixture"模型捕获维度间相关性,配合一致性损失函数,将多步离散扩散模型蒸馏为少步模型,同时在图像和语言任务上展示了有效性。

DRAG: Data Reconstruction Attack using Guided Diffusion

提出 DRAG,利用预训练潜在扩散模型(LDM)的图像先验知识,通过引导扩散过程从分割推理(Split Inference)的深层中间表示中高保真地重建原始输入图像,揭示视觉基础模型(CLIP、DINOv2)在 SI 场景下的严重隐私漏洞。

Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation

提出 Editable Noise Map Inversion (ENM Inversion),通过在反演过程中同时优化重建误差和编辑对齐误差,使 noise map 同时"铭刻"源图像与目标图像信息,在内容保持和编辑忠实度之间取得最优平衡。

Efficient Diffusion Models for Symmetric Manifolds

提出一种高效的对称流形(环面、球面、SO(n)、U(n))扩散模型框架,通过欧几里得布朗运动的投影和Itô引理绕过热核计算,将训练复杂度从指数级降至近线性,并提供多项式级采样精度保证。

Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

ResGen 通过直接预测累积RVQ嵌入而非单个令牌,解耦了生成迭代次数与序列长度和量化深度的关系,实现了高保真、快速采样的高效生成模型。

Elucidating Flow Matching ODE Dynamics via Data Geometry and Denoisers

本文从denoiser的角度深入分析了Flow Matching (FM) ODE的采样轨迹动力学,揭示了轨迹演化的三个阶段(初始→中间→终端),建立了FM ODE在数据支撑在低维子流形上时的收敛性理论。

ETTA: Elucidating the Design Space of Text-to-Audio Models

ETTA 通过大规模系统性实验阐明了文本到音频(TTA)模型的设计空间(数据、架构、训练目标、采样策略),并基于分析结论构建了当前公开数据下最优的 TTA 模型。

Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation

通过深入分析扩散模型U-Net中卷积层零填充(zero-padding)产生的位置信息在高分辨率下的传播不足问题,提出Progressive Boundary Complement(PBC)方法,在特征图内部构建渐进式虚拟边界来增强位置信息传播,实现训练无关的高质量高分辨率图像生成。

Expressive Score-Based Priors for Distribution Matching with Geometry-Preserving Regularization

提出基于 score function 的表达性先验分布(SAUB),通过 Score Function Substitution (SFS) 技巧绕过先验密度估计,结合 Gromov-Wasserstein 几何保持约束实现稳定高效的分布匹配,在公平分类、域适应和域翻译任务上取得优越表现。

Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape

提出 Flat-LoRA,通过在全参数空间中引入基于贝叶斯期望损失的随机权重扰动,使 LoRA 收敛到全参数空间中更平坦的极小值区域,提升域内和域外泛化性能,且几乎不增加训练时间和显存开销。

FlexiClip: Locality-Preserving Free-Form Character Animation

FlexiClip 提出了一种基于时域Jacobian校正、概率流ODE连续时间建模和GFlowNet流匹配损失的剪贴画动画框架,在保持视觉一致性的同时显著提升了动画的时间平滑性和几何完整性。

FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

提出 FlexTok——一种将 2D 图像重采样为可变长度、有序的 1D 离散 token 序列的 tokenizer,通过 nested dropout 学习层次化编码,配合 rectified flow 解码器在任意 token 数量下生成高质量重建,在 ImageNet 上用 8~128 个 token 即可实现 FID<2 的自回归图像生成。

Gaussian Mixture Flow Matching Models

提出高斯混合流匹配模型(GMFlow),用动态高斯混合分布替代传统的单高斯去噪分布来建模多模态流速度场,通过 KL 散度损失训练,并推导出 GM-SDE/ODE 求解器实现精确少步采样,同时引入概率引导方案解决 CFG 过饱和问题,在 ImageNet 256×256 上仅 6 步采样即达到 Precision 0.942。

GaussMarker: Robust Dual-Domain Watermark for Diffusion Models

提出 GaussMarker——首个双域(空间+频率)扩散模型水印方法,通过流水线注入器在初始高斯噪声的空间域和频率域一致嵌入水印,配合模型无关的可学习高斯噪声修复器(GNR)增强对旋转/裁剪攻击的鲁棒性,在三个 Stable Diffusion 版本上八种图像扭曲下达到平均 TPR@1%FPR 0.997 的 SOTA 性能。

Generative Audio Language Modeling with Continuous-Valued Tokens and Masked Next-Token Prediction

本文研究不使用离散 Token 的因果语言模型进行音频生成,利用 token-wise diffusion 建模连续值 next-token 分布,并提出 masked next-token prediction 任务,以 193M 参数在 AudioCaps 上达到与 SOTA 扩散模型相当的性能。

GRAM: A Generative Foundation Reward Model for Reward Generalization

GRAM 提出用生成式(而非判别式)方法训练奖励模型——先通过大规模无监督学习预训练生成式奖励模型,再用监督数据微调,并证明 label smoothing 实际上等价于正则化的 pairwise ranking 损失,实现了跨任务的奖励泛化。

Graph Generative Pre-trained Transformer (G2PT)

提出 G2PT——将图编码为节点+边的 token 序列,用 GPT 风格的自回归 Transformer 做 next-token prediction 来生成图,并通过拒绝采样微调(RFT)和 PPO 强化学习实现目标导向分子生成,在通用图和分子数据集上均达到 SOTA。

Hessian Geometry of Latent Space in Generative Models

提出通过重建 Fisher 信息度量来分析生成模型潜空间几何的方法,发现扩散模型潜空间中存在分形结构的相变边界,在相边界处 Lipschitz 常数发散。

Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots

提出 Hi-MAR,在掩码自回归图像生成中引入低分辨率 token 作为中间枢纽,建立从粗到细的层次化生成流程,并用 Diffusion Transformer Head 增强 token 间依赖建模,在 ImageNet 上以更少计算量显著超越 MAR(FID 提升 0.38)。

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals

提出将条件扩散模型与高斯过程先验相结合的分层强化学习框架,通过不确定性感知的子目标生成机制,解决高层策略在低层策略动态变化时难以产生有效子目标的核心难题。

How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects

本文首次提出一个统一框架,通过为 Truebones Zoo 数据集(70+ 物种)标注文本描述、引入 rig augmentation 技术以及在 Motion Diffusion Model 中融入 TreePE 和 RestPE 编码,实现了面向大词汇量异构骨骼对象的文本驱动动作生成,可为动物、恐龙乃至虚构生物合成高质量 3D 动作。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

IMPACT 将迭代掩码并行解码与潜在扩散模型结合,在连续潜在空间中操作并用轻量 MLP 扩散头替代传统重型注意力骨干,同时达成音频生成质量 SOTA(AudioCaps 上 FD=20.3, FAD=1.45)和接近最快模型 MAGNET-S 的推理速度。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

提出 IMPACT 框架,将迭代掩码并行解码(MGM)与潜在扩散模型(LDM)结合,在连续潜在空间中进行文本到音频生成,以轻量 MLP 扩散头替代重型注意力层,同时引入无条件预训练阶段,在 AudioCaps 上取得 FD/FAD 指标 SOTA 且推理速度与最快的 MAGNET-S 相当。

Importance Sampling for Nonlinear Models

通过引入非线性映射的伴随算子(adjoint operator),将线性模型中经典的范数采样和杠杆分数采样系统性地推广到非线性模型,首次为神经网络等非线性模型的重要性采样提供了理论近似保证。

Improving Flow Matching by Aligning Flow Divergence

从 PDE 视角分析了 Flow Matching 中学习概率路径与真实概率路径之间的误差,证明该误差受到向量场散度(divergence)差距的控制,并提出联合匹配流和散度的 FDM 训练目标,在密度估计、DNA 序列生成和视频预测等任务上显著提升了 FM 的表现。

Improving the Diffusability of Autoencoders

通过DCT频谱分析发现自编码器潜在空间存在与RGB不匹配的过强高频成分,提出尺度等变正则化(Scale Equivariance)对齐两者频率分布,仅需10-20K步微调即可将ImageNet FID降19%、Kinetics FVD降44%+。

InfoSEM: A Deep Generative Model with Informative Priors for Gene Regulatory Network Inference

提出InfoSEM——无监督生成框架利用文本基因嵌入作为信息先验推断基因调控网络(GRN):无需GT标签即超越监督方法38.5%,有标签作为额外先验时再提11.1%,同时发现现有监督方法学到的是基因特定偏差而非真正的调控机制。

Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models

提出 DMILO 和 DMILO-PGD 两种方法,通过中间层优化(ILO)分解扩散模型采样过程以大幅降低显存,并结合投影梯度下降(PGD)避免次优收敛,在线性和非线性逆问题上全面超越 DMPlug 等 SOTA 方法。

IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

提出 IntLoRA,通过整数型低秩参数实现量化扩散模型的微调,合并权重后无需额外 PTQ 即可直接获得量化推理权重,兼顾训练与推理效率。

Kinetic Langevin Diffusion for Crystalline Materials Generation

KLDM 提出用 Kinetic Langevin Diffusion 处理晶体材料生成中原子分数坐标位于超环面的问题,通过引入辅助速度变量将扩散偏移到平坦欧几里得空间,同时保持周期平移对称性,在晶体结构预测和从头生成任务上达到竞争力性能。

Label-Efficient Hyperspectral Image Classification via Spectral FiLM Modulation of Low-Level Pretrained Diffusion Features

提出 GeoDiffNet-F 框架,利用冻结的预训练扩散模型提取低层空间特征,并通过 FiLM(Feature-wise Linear Modulation)机制将高光谱光谱信息自适应融合到空间特征中,在极少标注条件下实现高效的高光谱图像土地覆盖分类。

Learning Single Index Models with Diffusion Priors

提出利用扩散模型先验从半参数单指标模型(SIM)的非线性观测中恢复信号的高效方法,只需一轮无条件采样和部分反演,无需已知链接函数,在1-bit和三次测量上以极少的NFE显著优于现有方法。

LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces

通过两年社区参与式研究,构建了包含 37,710 对多标准偏好标注的 LIVS 数据集,用于文本到图像模型在包容性城市公共空间设计中的多元对齐,并用 DPO 微调 SDXL 验证其有效性。

LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

提出 LlavaGuard——基于开源 VLM 的视觉内容安全审核框架,通过可定制安全分类体系、高质量人工标注数据集与策略增强训练,实现对图像内容的灵活、精准安全评估,在准确率和策略适应性上大幅超越现有开源与闭源审核工具。

Local Manifold Approximation and Projection for Manifold-Aware Diffusion Planning

提出LoMAP——训练无关的扩散规划修正方法,在每个反向扩散步将引导后样本投影到由离线数据近邻构建的局部低秩子空间上,防止不可行轨迹生成,理论证明引导误差随维度以 \(O(\sqrt{d})\) 增长。

Localizing and Mitigating Memorization in Image Autoregressive Models

利用改进的UnitMem指标定位图像自回归模型(VAR/RAR)中的记忆化神经元,发现不同架构的记忆化分布模式存在显著差异,并通过缩小高记忆化神经元权重实现了大幅降低可提取训练数据量(VAR-d30从672降至110张)且对生成质量影响可控的隐私缓解方案。

Long-Form Speech Generation with Spoken Language Models

提出 SpeechSSM,首个能在单次解码会话中学习和生成长达 16 分钟语音的 textless 语音语言模型,利用 Griffin 混合 SSM 架构实现常量内存解码和无限上下文,并引入 LibriSpeech-Long 评估基准和新的嵌入/LLM 评判指标。

LSCD: Lomb-Scargle Conditioned Diffusion for Time Series Imputation

提出 LSCD,将可微的 Lomb-Scargle 周期图层集成到 score-based 扩散模型中用于时间序列填补,通过频域条件信息和频谱一致性损失,在高缺失率下同时提升时域填补精度和频域恢复一致性。

Model Immunization from a Condition Number Perspective

从Hessian矩阵条件数的角度定义和分析模型免疫问题,提出最大化/最小化条件数的正则化器,使预训练模型难以被微调用于有害任务而不影响正常任务性能。

Modern Methods in Associative Memory

IBM&MIT团队的系统性教程,将Dense Associative Memory (DenseAM)从经典Hopfield网络扩展到现代AI架构,通过能量函数统一框架揭示AM与Transformer注意力、扩散模型的深层联系,并附带数学推导和编程练习。

Modulated Diffusion: Accelerating Generative Modeling with Modulated Quantization

MoDiff 提出了调制量化(Modulated Quantization)与误差补偿相结合的框架来加速扩散模型,将激活量化从 8-bit 降至 3-bit 且无性能损失,同时继承缓存和量化方法的双重优势。

Morse: Dual-Sampling for Lossless Acceleration of Diffusion Models

提出 Morse 双采样框架,通过快速 Dot 模型学习残差反馈来补偿 Dash(原扩散模型)跳步采样的信息损失,实现 1.78×–3.31× 的无损加速。

Multidimensional Adaptive Coefficient for Inference Trajectory Optimization in Flow and Diffusion

提出多维自适应系数 MAC(Multidimensional Adaptive Coefficient),作为 flow/diffusion 模型的即插即用模块,将传统的一维时间调度系数扩展为多维、样本自适应的系数,通过对抗训练优化推理轨迹,在 CIFAR-10 条件生成上以 5 NFE 取得 FID 1.37 的 SOTA 结果。

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

提出 MuseControlLite,通过在解耦交叉注意力层中引入旋转位置编码(RoPE),以仅 85M 可训练参数(比 ControlNet 少 6.75 倍)实现对文本到音乐生成的精确时变条件控制,同时首次统一支持音乐属性控制与音频修复/续写。

Nonparametric Identification of Latent Concepts

提出首个非参数概念可识别性理论框架,证明在不假设概念类型、函数关系或参数生成模型的情况下,仅通过多类别观测的多样性即可识别隐藏概念(至逐元素变换+置换不确定性)。

Normalizing Flows are Capable Generative Models

提出 TarFlow(Transformer AutoRegressive Flow),用堆叠因果 ViT 实现分块自回归 Normalizing Flow,首次在 ImageNet 64×64 上突破 3 BPD,并通过高斯噪声增强、score-based 去噪和 guidance 三项技术使 NF 模型的生成质量首次媲美扩散模型。

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction

提出 Next-Token-Pair Prediction (NTPP) 范式,首次用 decoder-only 架构对双通道语音对话进行 speaker-independent 联合分布建模,实现更自然的轮次转换、更低的推理延迟和更强的说话人无关性。

One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework

提出 Co-Erasing,首次将图像监督引入概念擦除流程,通过文本-图像协同的负引导和文本引导的图像概念精炼模块,在保持良性生成质量(usability)的同时显著提升不良概念的擦除效果(efficacy)。

Origin Identification for Text-Guided Image-to-Image Diffusion Models

本文提出 ID2 任务(文本引导图像到图像扩散模型的原始图像识别),构建了首个数据集 OriPID,并证明了通过对 VAE 嵌入进行线性变换可以泛化地找到生成图像的原始来源,在 mAP 上超越相似度方法 31.6%。

PAK-UCB Contextual Bandit: An Online Learning Approach to Prompt-Aware Selection of Generative Models and LLMs

提出 PAK-UCB 上下文老虎机算法,通过为每个生成模型学习独立的核函数,在线预测给定 prompt 下的最优模型,实现 prompt 级别的生成模型/LLM 选择,并用随机傅里叶特征(RFF)降低计算开销。

PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

PepTune 结合 Masked Discrete Language Model (MDLM) 和蒙特卡罗树搜索 (MCTS) 多目标引导策略,在离散肽 SMILES 空间中同时优化多种治疗属性(结合亲和力、溶解性、膜通透性等),生成含非天然氨基酸和环化修饰的从头设计肽药物。

Performance Plateaus in Inference-Time Scaling for Text-to-Image Diffusion Without External Models

系统性研究了在不依赖外部模型(VLM/CLIP)的前提下,对文本到图像扩散模型的初始噪声优化算法施加 Best-of-N 推理时缩放的效果,发现性能会迅速达到平台期(plateau),少量优化步数即可逼近该设置下的最大性能,且不同底层扩散模型上的最优算法不同。

Piloting Structure-Based Drug Design via Modality-Specific Optimal Schedule

提出 VLB-Optimal Scheduling (VOS) 策略,通过理论分析多模态(连续3D位置+离散2D拓扑)联合噪声调度的路径依赖VLB特性,用动态规划搜索最优噪声调度路径,在 CrossDock 上以 95.9% PoseBusters 通过率达到 SBDD SOTA。

Position: All Current Generative Fidelity and Diversity Metrics are Flawed

Position paper:系统性地证明了所有现有生成模型 fidelity 和 diversity 指标(包括 Improved Precision/Recall、Density/Coverage、α-precision/β-recall 等六对指标)在精心设计的 sanity check 中均存在大量失败,呼吁社区投入更多精力研发更可靠的评估指标。

PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization

将黑盒模型反转攻击形式化为 MDP,用 PPO 强化学习在生成模型的隐空间中导航搜索,仅依赖目标模型的预测概率即可高效重建训练样本,以更少查询和更少类别数据实现了 SOTA 攻击成功率。

Preference Adaptive and Sequential Text-to-Image Generation

PASTA 将个性化 T2I 生成建模为多轮序列决策问题,通过 VLM 生成候选 prompt + EM 训练用户偏好模型 + IQL 离线 RL 学习价值函数,在人类评估中显著优于基线 LMM。

Privacy Amplification Through Synthetic Data: Insights from Linear Regression

在线性回归框架下,证明了合成数据在对抗者控制种子时无法提供隐私放大,但在随机输入下释放有限数量的合成数据可以获得超越模型本身DP保证的隐私放大效果,放大程度为 \(O(1/d)\)

Progressive Tempering Sampler with Diffusion

提出 Progressive Tempering Sampler with Diffusion (PTSD),通过将 Parallel Tempering 的温度交换机制与扩散模型的神经采样器相结合,利用"温度引导"从高温扩散模型外推生成低温近似样本,在目标密度评估效率上实现数量级提升。

Provable Maximum Entropy Manifold Exploration via Diffusion Models

提出 S-MEME 算法,将扩散模型的探索问题形式化为近似数据流形上的熵最大化,通过利用 score 函数与熵一阶变分的内在联系绕开密度估计,以镜像下降方式迭代微调预训练扩散模型,并证明收敛到最优探索策略。

Quantum Algorithms for Finite-horizon Markov Decision Processes

提出四种量子值迭代算法(QVI-1/2/3/4),在精确动力学和生成模型两种设定下,对有限时域时变MDP实现了状态空间 \(S\)、动作空间 \(A\)、误差 \(\epsilon\) 和时域 \(H\) 多维度的量子加速,并证明了渐近最优的量子下界。

ReFrame: Layer Caching for Accelerated Inference in Real-Time Rendering

将扩散模型中的中间层缓存技术(DeepCache)扩展到实时渲染 pipeline 中的 U-Net/U-Net++ 网络,通过帧差自适应缓存策略实现平均 1.4× 推理加速,且画质损失微乎其微。

Reimagining Parameter Space Exploration with Diffusion Models

探索用扩散模型学习任务特定参数(LoRA adapter)的分布并直接生成新参数,在野生动物分类场景中验证了其在已知任务上可匹配微调性能,但在跨任务泛化上仍面临挑战。

Representative Language Generation

提出"代表性生成"(representative generation)理论框架,要求生成模型的输出按比例代表训练数据中的各兴趣群组,并引入"群组闭包维度"(group closure dimension)作为刻画可生成性的关键组合量。

RestoreGrad: Signal Restoration Using Conditional Denoising Diffusion Models with Jointly Learned Prior

提出 RestoreGrad 框架,通过 Prior Net 和 Posterior Net 联合学习条件 DDPM 的先验分布(而非固定标准高斯),利用退化信号与干净信号之间的相关性构建更具信息量的先验,在语音增强和图像修复任务上实现 5-10× 更快收敛和 2-2.5× 更少推理步数。

Review, Remask, Refine (R3): Process-Guided Block Diffusion for Text Generation

提出 R3 (Review, Remask, Refine) 框架,在推理阶段利用过程奖励模型 (PRM) 评估掩码扩散模型的中间生成块,对低质量块进行比例性重掩码并重新生成,实现无需额外训练的定向纠错,在数学推理任务上以极低的 PRM 调用次数取得显著提升。

Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation

提出将扩散模型训练视为"生成式预训练"的新视角,发现蒸馏中师生模型收敛到不同局部最优的根本局限,证明仅用 GAN 目标(无需蒸馏损失)即可将预训练扩散模型高效转换为单步生成器(D2O),且冻结 85% 参数的微调版本(D2O-F)仅需 0.2M 图像即可达到强竞争力结果。

SADA: Stability-guided Adaptive Diffusion Acceleration

提出基于ODE轨迹二阶差分的稳定性准则(Stability Criterion),统一调控步级(step-wise)和token级(token-wise)稀疏决策,在SD-2/SDXL/Flux上实现≥1.8×加速且LPIPS≤0.10、FID≤4.5,显著优于DeepCache和AdaptiveDiffusion。

Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction

提出 supremal visitation ratio \(C_{vr}\) 度量在线鲁棒 MDP 的探索难度,设计首个支持一般 \(f\)-散度(TV/KL/\(\chi^2\))的高效在线算法 ORBIT,并给出匹配的上下界,证明 \(C_{vr}\) 是刻画 off-dynamics RL 在线可学习性的紧致度量。

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

提出 SPELL(Sparse Repellency)方法,在扩散模型生成过程中添加稀疏排斥项,将采样轨迹推离参考图像集合(受保护图像或已生成图像),以免训练方式提升输出多样性并防止复制训练集。

Simple and Critical Iterative Denoising: A Recasting of Discrete Diffusion in Graph Generation

提出 Simple Iterative Denoising (SID) 与 Critical Iterative Denoising (CID) 框架,通过假设中间噪声状态的条件独立性来消除离散扩散的复合去噪误差,并引入 Critic 网络自适应调节元素级重加噪概率,在图/分子生成任务上大幅超越标准离散扩散基线。

Stealix: Model Stealing via Prompt Evolution

Stealix 提出首个无需人工设计 prompt 的模型窃取方法,通过遗传算法迭代进化 prompt,利用 Stable Diffusion 生成目标类别图像并查询受害模型,仅需每类 1 张真实图像即可在低查询预算下超越依赖类名或手工 prompt 的已有方法,准确率提升最高达 22.2%。

Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion

受物理中软粒子布朗运动的启发,本文提出在潜空间中通过随机力驱动的身份采样方法(Langevin、Dispersion、DisCo 三种算法),生成大规模多样化的合成人脸数据集用于训练人脸识别模型,同时防止训练数据泄漏。

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

系统研究"合成感知"——利用T2I模型为纯文本数据即时生成合成图像作为互补模态,通过三阶段评估框架(生成→融合→评估)证明该策略在讽刺检测和隐式情感分析等困难任务上可为Llama-3/Qwen-2.5等强LLM带来显著提升(+3.9% Acc),但在简单事实分类任务上增益边际。

Taming Diffusion for Dataset Distillation with High Representativeness (D³HR)

提出 D³HR 框架,通过 DDIM 反演将 VAE 潜在空间的复杂混合高斯分布映射到高正态性的噪声空间,再结合组采样策略生成高代表性的蒸馏数据集,在 CIFAR、Tiny-ImageNet、ImageNet-1K 上全面超越现有 SOTA。

Taming Rectified Flow for Inversion and Editing

提出 RF-Solver 和 RF-Edit 两个无训练方法,通过高阶 Taylor 展开精确求解 Rectified Flow ODE 来大幅提升反演精度,并利用自注意力特征共享实现高质量图像/视频编辑,兼容 FLUX、OpenSora 等主流模型。

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

提出 SODP 框架:先用大量无奖励标签的次优多任务轨迹预训练扩散规划器,再用基于策略梯度的 RL 微调快速适配下游任务,并引入 BC 正则化防止性能崩溃,在 Meta-World 50 任务上达到 60.56% 成功率(SOTA)。

TCP-Diffusion: A Multi-modal Diffusion Model for Global Tropical Cyclone Precipitation Forecasting with Change Awareness

提出 TCP-Diffusion,融合历史降水、多模态气象变量和 NWP 预报的条件扩散模型,通过邻接残差预测(ARP)机制预测降水变化量而非绝对值,在全球热带气旋降水预报中超越 ECMWF 等权威 NWP 方法。

The Diffusion Duality

揭示了 Uniform-state 离散扩散过程本质上从底层高斯扩散中涌现(通过 argmax 映射),利用这一对偶性将高斯扩散的课程学习策略和一致性蒸馏迁移到离散设置,实现训练速度翻倍和采样加速两个数量级(1024步→8步),在零样本困惑度上 3/7 数据集超越自回归模型。

Theoretical Guarantees on the Best-of-n Alignment Policy

本文推翻了文献中广泛使用的 best-of-n 策略 KL 散度公式 \(\log(n) - (n-1)/n\) 的精确性声明,证明它只是一个上界,并提出了更紧的 KL 散度估计器和 win rate 理论界。

ToMA: Token Merge with Attention for Diffusion Models

提出 ToMA,将 token merge 重新建模为子模优化问题并以 attention-like 线性变换实现 merge/unmerge,使其与 FlashAttention 等 GPU 优化方案兼容,在 SDXL/Flux 上分别实现 24%/23% 的实际端到端加速,同时图像质量损失极小(DINO Δ<0.07)。

Towards a Mechanistic Explanation of Diffusion Model Generalization

通过比较神经网络去噪器与理论最优经验去噪器的近似误差,发现扩散模型的泛化源于跨架构共享的局部归纳偏置——神经网络在去噪时倾向于执行局部化操作,并据此提出无需训练的 Patch Set Posterior Composites (PSPC) 去噪器,通过聚合局部经验去噪器来复现网络行为,证实 patch 去噪与组合是扩散模型泛化的重要机制。

Tree-Sliced Wasserstein Distance: A Geometric Perspective

提出 Tree-Sliced Wasserstein distance on Systems of Lines (TSW-SL),用树状线系统替代 SW 中的一维直线作为投影域,保留拓扑结构的同时保持闭合解的高效计算,在梯度流、风格迁移和生成模型上超越 SW 及其变体。

Tree-Sliced Wasserstein Distance with Nonlinear Projection

提出非线性投影框架下的 Tree-Sliced Wasserstein(TSW)距离,通过 Circular/Spatial 两种非线性 Radon 变换替代原有线性投影,在保持度量良定义和单射性的同时,在梯度流、自监督学习和生成模型等任务上显著优于已有 SW 和 TSW 变体。

Understanding and Mitigating Memorization in Diffusion Models for Tabular Data

首次系统研究表格扩散模型中的记忆化现象,发现记忆化随训练轮次增加而加剧且与数据集大小强相关,提出TabCutMix/TabCutMixPlus通过特征段交换缓解记忆化同时保持生成质量。

Understanding and Mitigating Memorization in Generative Models via Sharpness of Probability Landscapes

通过对数概率密度的 Hessian 曲率(sharpness)建立扩散模型记忆化的几何分析框架,提出可在生成初始阶段检测记忆化的新指标,并设计无需重训练的 SAIL 初始噪声优化策略来缓解记忆化。

Unsupervised Learning for Class Distribution Mismatch (UCDM)

提出 UCDM,利用扩散模型从无标注数据中合成正负样本对来训练分类器,在不依赖标注数据的情况下解决训练集与目标任务之间的类别分布不匹配(CDM)问题,在 closed-set 和 open-set 任务上均大幅超越现有半监督方法。

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

利用视频扩散模型(VDM)内部的"预测性视觉表征"(同时编码当前帧和未来帧信息)来隐式学习逆动力学模型,从而以高频闭环方式生成机器人动作,在仿真和真实世界操作任务上大幅超越已有方法。

Visual Generation Without Guidance

提出 Guidance-Free Training (GFT),通过重新参数化条件模型为采样网络与无条件网络的线性插值,直接从数据训练出无需引导的视觉生成模型,在 DiT/VAR/LlamaGen/MAR/LDM 五种模型上匹配 CFG 性能的同时将采样计算量减半。

Visual Language Models as Zero-Shot Deepfake Detectors

提出基于 VLM token 概率归一化的图像分类框架,将 deepfake 检测从二元判断升级为概率估计,在零样本设置下用 InstructBLIP 超越多数专用 deepfake 检测器,微调后在 DFDC-P 上接近完美。

When Diffusion Models Memorize: Inductive Biases in Probability Flow of Minimum-Norm Shallow Neural Nets

从理论上分析了最小 \(\ell^2\) 范数浅层 ReLU 去噪器驱动的扩散模型概率流的收敛行为,证明概率流可以收敛到训练样本(记忆化)、训练样本之和("虚拟点")或超盒边界上的流形点(泛化),且扩散时间调度器的"早停"效应决定了收敛目标。

DDIS: When Model Knowledge Meets Diffusion Model — Diffusion-assisted Data-free Image Synthesis

提出 DDIS,首次将 T2I 扩散模型作为强图像先验用于无数据图像合成,通过域对齐引导(DAG)和类对齐 Token(CAT)使生成图像在域和类两个层面精准对齐预训练模型的训练数据分布,在 PACS 和 ImageNet 的无数据 KD/剪枝中达到 SOTA。

DDIS: When Model Knowledge Meets Diffusion Model

提出DDIS——首个利用T2I扩散模型作为图像先验的无数据图像合成方法,通过Domain Alignment Guidance (DAG)在扩散采样过程中对齐BN层域统计量、Class Alignment Token (CAT)编码类特定属性,在ImageNet-1k和多域PACS上全面超越现有DFIS方法。

Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models

提出 ProLoRA,一种免训练的闭式 LoRA 跨模型迁移方法,通过将源 LoRA 在源模型权重子空间和零空间的投影分解重新投射到目标模型的对应空间,实现风格/概念/加速 LoRA 在不同扩散模型间的无损迁移。