跳转至

🎨 图像生成

🔬 ICLR2026 · 共 71

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

对扩散 Transformer 的条件嵌入进行首次系统分析,发现极端的角度相似性(类间余弦相似度>99%)和维度稀疏性(仅 1-2% 的维度携带语义信息),裁剪掉 2/3 的低幅维度后生成质量基本不变,揭示了条件嵌入中隐藏的语义瓶颈。

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

提出 AlignTok,将预训练视觉基础编码器(如 DINOv2)对齐为扩散模型的连续 tokenizer,通过三阶段对齐策略(语义潜空间建立→感知细节补充→解码器精炼)构建语义丰富的潜空间,在 ImageNet 256×256 上 64 epochs 即达 gFID 1.90,比从头训练 VAE 收敛更快、生成质量更好。

Amortising Inference and Meta-Learning Priors in Neural Networks (BNNP)

提出 BNNP(Bayesian Neural Network Process),一种将 BNN 权重作为隐变量、BNN 本身作为解码器的 neural process,通过逐层 amortised variational inference 在多数据集上联合学习 BNN 先验和推断网络,首次回答了"在良好先验下,近似推断方法还重要吗?"——答案是肯定的,没有免费午餐。

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

AsynDM 通过为不同像素分配不同的时间步调度(prompt 相关区域去噪更慢),使其能利用更清晰的上下文参考,从而在不需要微调的情况下显著提升文图生成的语义对齐。

Beyond Confidence: The Rhythms of Reasoning in Generative Models

提出 Token Constraint Bound (\(\delta_{\text{TCB}}\)) 指标,通过量化 LLM 隐状态在多大扰动范围内能保持 next-token 预测不变,来度量预测的局部鲁棒性,揭示了传统 perplexity 无法捕捉的预测不稳定性。

Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models

Blueprint-Bench 通过"从公寓内部照片生成 2D 平面图"的任务来评测 AI 模型的空间推理能力,结果显示大多数 LLM、图像生成模型和 Agent 系统的表现接近或低于随机基线,揭示了当前 AI 在空间智能上的重大盲区。

Bridging Degradation Discrimination and Generation for Universal Image Restoration

BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。

Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models

FedVTC 提出在模型异构联邦学习中,各客户端通过变分转置卷积网络(VTC)从聚合的特征分布统计量中生成合成数据来微调本地模型,无需公共数据集即可显著提升泛化能力,同时降低通信和内存开销。

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

提出 Consistency Mid-Training (CMT),在预训练扩散模型和 flow map 后训练之间插入一个轻量级中间训练阶段,通过让模型学习将 ODE 轨迹上的任意点映射回干净样本来获得轨迹对齐的初始化,从而大幅降低训练成本(最多 98%)并达到 SOTA 两步生成质量。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

提出 General Policy Composition (GPC),在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数(score),无需额外训练即可产生超越任何单一父策略的更强策略,理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

Compositional amortized inference for large-scale hierarchical Bayesian models

将组合分数匹配(CSM)扩展到层次贝叶斯模型,通过新的误差衰减估计器和 mini-batch 策略解决大量数据组下的数值不稳定问题,首次实现超过 75 万参数(25 万+ 数据组)的大规模层次模型的摊销推断,并在荧光寿命成像的真实科学应用中验证有效性。

Concept-TRAK: Understanding how diffusion models learn concepts through concept-level attribution

提出 Concept-TRAK,通过设计概念特异的训练损失(DPS reward)和效用损失(CFG guidance),将影响函数从全图归因扩展到概念级归因,在合成、CelebA-HQ 和 AbC benchmark 上大幅超越 TRAK/D-TRAK/DAS 等方法,特别是在 OOD 组合新概念场景下优势显著。

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

理论分析了自回归扩散损失模型相比条件扩散模型在条件误差修正上的优势(梯度范数指数衰减),并提出基于最优传输(Wasserstein Gradient Flow)的条件精炼方法来解决自回归过程中的"条件不一致性"问题,在 ImageNet 上达到 FID 1.31(基于 MAR)。

Conditionally Whitened Generative Models for Probabilistic Time Series Forecasting

提出 CW-Gen(条件白化生成模型),通过联合估计条件均值和滑动窗口协方差矩阵来替代扩散模型/流匹配中的标准高斯终端分布,理论证明了当估计器满足充分条件时采样质量必然提升,在 5 个数据集 × 6 个生成模型上一致改善多变量时间序列概率预测性能。

Conjuring Semantic Similarity

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

Consistent Text-to-Image Generation via Scene De-Contextualization

揭示 T2I 模型中 ID 偏移的根本原因是"场景上下文化"(scene contextualization,场景 token 对 ID token 注入上下文信息),并提出 training-free 的 Scene De-Contextualization (SDeC) 方法,通过 SVD 特征值的方向稳定性分析识别并抑制 prompt embedding 中潜在的场景-ID 关联,实现逐场景的身份一致性生成。

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

提出 DiffBacChrom——基于条件扩散 Transformer (CrossDiT) 从 Hi-C 接触图谱生成大肠杆菌三维基因组构象集合,通过 ResNet VAE 保持逐 bin 对齐的潜空间编码、Transformer 编码器 + 交叉注意力注入 Hi-C 条件、flow-matching 训练,生成的集合在距离衰减 P(s) 和 SCC 指标上与输入 Hi-C 高度一致,同时保持构象多样性。

Contact Wasserstein Geodesics for Non-Conservative Schrödinger Bridges

提出非守恒广义 Schrödinger 桥 (NCGSB)——基于接触哈密顿力学允许能量随时间变化,通过 Contact Wasserstein Geodesic (CWG) 将桥问题转化为有限维 Jacobi 度量上的测地线计算,用 ResNet 参数化实现近线性复杂度且支持引导生成,在流形导航、分子动力学、图像生成等任务上大幅超越迭代式 SB 求解器。

ContextBench: Modifying Contexts for Targeted Latent Activation

提出 ContextBench 基准(715 个任务)评估自动生成流畅且能激活特定潜在特征的输入文本的方法,并开发两种 EPO 增强变体(LLM辅助和扩散模型修补),在激活强度和语言流畅度的权衡上 Pareto 优于标准 EPO。

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

首次系统研究 T2I 扩散模型的持续遗忘(continual unlearning)问题,发现现有遗忘方法在序列请求下因累积参数漂移导致"效用崩溃",提出一组附加正则化策略(L1/L2 范数、选择性微调、模型合并)和语义感知的梯度投影方法来缓解该问题。

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations

提出 Contractive Diffusion Policies (CDPs),通过在扩散采样 ODE 中引入收缩正则化来抑制 score 匹配误差和求解器误差的累积,以最小修改和单一超参数 \(\gamma\) 提升离线学习中扩散策略的鲁棒性。

COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations

通过谐波失真分析和 Chebyshev 多项式逼近,证明奇/偶对称激活函数在后激活频谱中存在衰减,提出用复正弦项调制激活函数 (COSMO-RC) 来保留完整频谱支持,在图像重建上平均 PSNR 比最强基线高 +5.67 dB。

CREPE: Controlling Diffusion with Replica Exchange

提出 CREPE,一种基于 Replica Exchange(并行回火/Parallel Tempering)的扩散模型推理时控制方法,作为 SMC 的计算对偶——在去噪步维度上并行、在样本维度上串行生成,具有高样本多样性、可在线精炼、支持温度退火/奖励倾斜/模型组合/CFG 去偏等多种任务。

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

解决 Flow Matching + GRPO 对齐中的稀疏奖励问题:通过 ODE 去噪预测中间潜变量的 step-wise 奖励增益作为密集奖励,并根据密集奖励自适应调整 SDE 采样器的逐时间步噪声注入来校准探索空间,在人类偏好对齐/组合生成/文字渲染三个任务上超越 Flow-GRPO。

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

本文证明基于范数的记忆检测指标仅在各向同性(isotropic)对数概率分布下有效,在低噪声各向异性(anisotropic)区域失效;提出结合高噪声范数和低噪声角度对齐(cosine similarity)的无去噪检测指标,在 SD v1.4/v2.0 上超越现有无去噪方法且快 5× 以上。

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

提出 DiffInk,首个面向全行手写生成的潜在扩散 Transformer 框架,包含 InkVAE(通过 OCR + 风格分类双正则化学习结构化潜空间)和 InkDiT(在潜空间中做条件去噪生成),在中文手写生成上大幅超越 SOTA(AR 94.38% vs 91.48%),速度提升 800×。

Diffusion Alignment as Variational Expectation-Maximization

将扩散模型对齐形式化为变分 EM 算法:E-step 用 test-time search(soft Q 引导 + 重要性采样)探索高奖励多模态轨迹,M-step 通过 forward-KL 蒸馏将搜索结果写入模型参数,在图像生成和 DNA 序列设计上同时实现高奖励和高多样性。

Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

提出 Diffusion Blend,通过在推理时混合多个奖励微调模型的反向扩散过程来实现多偏好对齐:DB-MPA 支持任意奖励线性组合、DB-KLA 支持动态 KL 正则化控制、DB-MPA-LS 通过随机 LoRA 采样消除推理开销,理论上证明了混合近似的误差界并在实验中接近 MORL oracle 上界。

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

提出 DiffusionNFT,一种全新的扩散模型在线 RL 范式:不在反向采样过程上做策略优化(如 GRPO),而是在前向过程上通过 flow matching 目标对正样本和负样本做对比式训练,定义隐式的策略改进方向,比 FlowGRPO 快 3-25×,且无需 CFG。

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

提出 DrPose,通过直接奖励微调最大化 PoseScore(多视角潜变量图像与 GT 3D 姿态的骨骼一致性)+ KL 正则化防止 reward hacking,结合 DrPose15K 数据集(从 Motion-X 运动数据集采样 15K 多样姿态 + MIMO 视频生成器合成单视角图像),使多视角扩散模型在动态/杂技等困难姿态场景下的 3D 人体重建质量显著提升。

Directional Textual Inversion for Personalized Text-to-Image Generation

本文发现 Textual Inversion (TI) 学到的 token embedding 存在范数膨胀(norm inflation)问题,导致复杂 prompt 的文本对齐下降;提出 Directional Textual Inversion (DTI),将 embedding 范数固定在分布内尺度、仅在单位超球面上用 Riemannian SGD 优化方向,结合 von Mises-Fisher 先验,显著提升 prompt 忠实度。

DistillKac: Few-Step Image Generation via Damped Wave Equations

用阻尼波方程(telegrapher equation)及其随机 Kac 表示替代 Fokker-Planck 方程作为生成模型的概率流基础,实现有限速度传播的概率流,并提出端点蒸馏(endpoint distillation)方法实现少步生成,在 CIFAR-10 上 4 步 FID=4.14、1 步 FID=5.66。

DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting

提出DoFlow,一种基于连续正则化流(CNF)的因果生成模型,在因果DAG上统一实现观测、干预和反事实时间序列预测,并可通过显式似然进行异常检测,在合成和真实医疗数据上验证了有效性。

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

首个将 FLUX (DiT) 的强生成先验引入拖拽编辑的框架,通过区域级仿射监督替代传统点级监督,配合梯度掩码硬约束和 adapter 增强反演,大幅提升拖拽编辑质量。

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

指出当前统一多模态模型中理解模块仅作翻译器而生成模块被迫同时充当"设计师"和"画家"的职责失衡问题,通过构建 DIM 数据集(14M 长上下文文图对 + 233K CoT 编辑蓝图)将设计责任转移给理解模块,4.6B 参数即超越 5 倍大的模型。

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

提出 Dual-Solver,通过三组可学习参数(预测类型插值 \(\gamma\)、积分域选择 \(\tau\)、残差调整 \(\kappa\))泛化扩散模型多步采样器,用冻结预训练分类器(MobileNet/CLIP)的分类损失学习参数(无需教师轨迹),在 3-9 NFE 低步区间全面优于 DPM-Solver++ 等方法。

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

提出 T2I-CoReBench,首个同时系统评估 T2I 模型组合能力(Composition)和推理能力(Reasoning)的综合性基准,涵盖 12 个评估维度、1080 条高难度 prompt 和约 13500 个 checklist 问题,通过对 38 个模型的大规模评测揭示:推理能力远远落后于组合能力,是当前 T2I 生成的核心瓶颈。

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

构建了一个包含 200K 人工标注偏好对的高质量数据集 EditReward-Data,训练出 EditReward 奖励模型,在多个图像编辑评估基准上达到 SOTA 的人类对齐度,并验证其作为数据筛选器可显著提升下游编辑模型性能。

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

提出首个系统性的"基准评测→奖励模型→强化学习训练"图像编辑 RL 管线:构建 EditReward-Bench 基准,训练 EditScore 系列奖励模型(7B-72B,超过 GPT-5),并成功将其用于 Online RL 训练显著提升编辑模型性能。

Efficient Adversarial Attacks on High-dimensional Offline Bandits

揭示了离线多臂老虎机(MAB)评估框架的安全漏洞:攻击者只需对公开的奖励模型权重进行极小的不可感知扰动,就能完全劫持 bandit 的决策行为,且所需扰动范数随输入维度增加而降低(\(\widetilde{\mathcal{O}}(d^{-1/2})\)),使基于图像的生成模型评估特别脆弱。

Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

通过用 ×8 pixel-(un)shuffle 替代 VAE 的编码器和解码器,将潜空间扩散超分(GenDR)逆转为像素空间超分(GenDR-Pix),结合多阶段对抗蒸馏和 PadCFG 推理策略,实现 2.8× 加速和 60% 显存节省,同时保持可忽略的视觉退化,首次实现 1 秒内 4K 图像恢复仅需 6GB 显存。

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

提出 ERK-Guid,利用嵌入式 Runge-Kutta 求解器的阶差误差作为 guidance 信号,在刚性区域自适应纠正局部截断误差(LTE),无需额外网络评估即可提升扩散模型采样质量。

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

提出 Event-T2M 框架,将文本提示分解为事件级别的原子动作,结合 TMR 编码器和事件级交叉注意力(ECA)模块注入 Conformer 扩散模型,显著提升多事件复杂动作生成的质量和语义对齐。

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

提出 SpatialGenEval 基准,通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域,系统评估 23 个 SOTA T2I 模型的空间智能,揭示空间推理是主要瓶颈;同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

提出 ECAD(Evolutionary Caching to Accelerate Diffusion models),利用遗传算法在速度-质量 Pareto 前沿上自动搜索最优缓存调度策略,无需修改模型参数,仅用 100 条校准提示即可实现扩散模型 2-3 倍推理加速并保持甚至提升生成质量。

Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search

提出 Bias-Guided Prompt Search (BGPS),通过结合 LLM 解码引导和扩散模型中间层属性分类器,自动发现可解释的、能最大化暴露 T2I 模型隐藏社会偏见的文本提示,即使对已去偏的模型也能揭示残留偏见。

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

首个系统性研究结构化图像(图表、数学公式、示意图等)生成与编辑的工作,构建了130万对代码对齐的训练数据集(含 CoT 推理标注)、统一的 VLM+扩散模型架构以及包含1700+样本的 StructBench 基准评测,揭示了推理能力是当前模型处理结构化视觉内容的关键瓶颈。

SSCP: Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

提出 Single-Step Completion Policy (SSCP),通过在流匹配框架中预测"完成向量"(从任意中间状态到目标动作的归一化方向),将多步生成策略压缩为单步推理,在 D4RL 上与多步扩散/流策略持平但训练快 64×、推理快 4.7×,并扩展到 GCRL 中将层级策略扁平化。

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

提出 Follow-Your-Shape,一个无需训练和掩码的形状感知编辑框架,通过计算反演与编辑轨迹间的 token 级速度差异构建 Trajectory Divergence Map (TDM) 来精确定位编辑区域,配合分阶段 KV 注入实现大幅形状变换且严格保持背景。

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

提出 Frame Guidance,一种无需训练的帧级引导方法,通过 latent slicing(降低 60× 显存)和 Video Latent Optimization(VLO)两个核心组件,在不修改模型的情况下实现关键帧引导、风格化和循环视频等多种可控视频生成任务。

GenCP: Towards Generative Modeling Paradigm of Coupled Physics

提出 GenCP,将耦合多物理场仿真建模为概率密度演化问题,利用 flow matching 从解耦数据学习条件速度场,推理时通过 Lie-Trotter 算子分裂合成耦合解,实现"解耦训练、耦合推理",并提供理论误差可控保证。

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

提出 Directo,首个基于离散流匹配(Discrete Flow Matching)的有向图生成模型,通过方向感知的双注意力机制和非对称位置编码捕获有向边的方向依赖,同时建立了有向图生成的标准化评测体系。

GLASS Flows: Efficient Inference for Reward Alignment of Flow and Diffusion Models

提出 GLASS (Gaussian Latent Sufficient Statistic) Flows——一种在流/扩散模型的去噪过程中实现高效随机转移的新采样范式,通过充分统计量重参数化将随机转移重铸为内部 ODE 求解问题,在无需重训的条件下结合 ODE 效率和 SDE 随机性,使 Feynman-Kac Steering 在 FLUX 文生图模型上一致超越 Best-of-N 基线。

Hog-Diff Higher-Order Guided Diffusion For Graph Generation

本文提出 HOG-Diff,一个利用高阶拓扑结构(如环、三角形、motif)作为生成引导的图扩散框架,通过胞复形过滤(CCF)提取高阶骨架并结合广义 OU 扩散桥实现"由粗到细"的渐进式图生成,在分子和通用图生成的 8 个基准上取得了 SOTA 性能。

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Recall 提出首个多模态引导的攻击框架,通过在隐空间中优化对抗图像 prompt(仅需一张参考图像),配合原始文本 prompt 利用扩散模型的 image-conditioning 通道,在 10 种 SOTA 遗忘方法上平均 ASR 达 65%~97%,显著超越纯文本攻击方法,揭示当前遗忘机制对图像模态攻击的脆弱性。

Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models

首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现,在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型,发现 Infinity-8B 在几乎所有组合维度上取得最强表现,VAR 架构在组合生成方面展现出显著优势。

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重,但将擦除监督施加在最后一层的高层语义表征上,通过引导目标概念表征偏向随机方向(HiRM-R)或语义方向(HiRM-S),在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除,且可零样本迁移到 Flux 架构。

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

提出 Mod-Adapter,一种无需测试时微调的多概念个性化方法,通过在 DiT 的调制(modulation)空间中预测概念特定的调制方向,实现对物体和抽象概念(姿态、光照、材质等)的解耦化定制生成,在多概念个性化上大幅超越现有方法。

Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

提出 Motion Prior Distillation (MPD),一种推理时蒸馏方法,将前向路径的运动残差蒸馏到后向路径中,从根本上解决了时间反转采样中双向运动先验冲突的问题,无需额外训练即可实现更连贯的生成式帧插值。

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

提出多视角定制(multi-view customization)新任务并设计 MVCustom 框架,通过视频扩散骨干网络结合密集时空注意力实现整体帧一致性,在推理阶段引入深度感知特征渲染和一致性感知潜码补全两项技术,首次同时实现相机位姿控制、主体身份保持和跨视角几何一致性。

Neon: Negative Extrapolation From Self-Training Improves Image Generation

提出 Neon,一种仅需 <1% 额外训练计算的后处理方法:先用模型自身生成的合成数据微调导致退化,再反向外推远离退化权重,证明 mode-seeking 采样器导致合成/真实数据梯度反对齐,因此负外推等价于向真实数据分布优化,在 ImageNet 256×256 上将 xAR-L 提升至 SOTA FID 1.02。

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

提出 NeuralOS,使用 RNN 状态追踪 + 扩散渲染器的双组件架构,直接从用户输入事件(鼠标移动/点击/键盘)预测操作系统图形界面帧序列,首次实现用神经生成模型模拟操作系统。

RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation

提出 RMFlow,在 1-NFE MeanFlow 传输后加入一步噪声注入精炼来弥补单步传输的误差,同时在训练中加入最大似然目标来最小化学习分布与目标分布间的 KL 散度,在 T2I、分子生成、时间序列生成上实现接近 SOTA 的 1-NFE 结果。

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

提出 SenseFlow,通过隐式分布对齐(IDA)和段内引导(ISG)将分布匹配蒸馏(DMD)扩展到大规模 flow-based 文生图模型(SD 3.5 Large 8B / FLUX.1 dev 12B),实现 4 步高质量图像生成。

SoFlow: Solution Flow Models for One-Step Generative Modeling

提出 Solution Flow Models (SoFlow),直接学习速度 ODE 的解函数 \(f(x_t, t, s)\)(将 \(t\) 时刻的 \(x_t\) 映射到 \(s\) 时刻的解),通过 Flow Matching 损失 + 无需 JVP 的解一致性损失从头训练,在 ImageNet 256 上 1-NFE FID 优于 MeanFlow(XL/2: 2.96 vs 3.43)。

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

SPEED 提出基于零空间(null space)约束的闭式模型编辑方法,通过影响力先验过滤(IPF)、定向先验增强(DPA)和不变等式约束(IEC)三种互补技术精化保留集,实现可扩展(5 秒内擦除 100 个概念)、精确(非目标概念语义零损失)且高效的概念擦除。

Steer Away From Mode Collisions: Improving Composition In Diffusion Models

针对扩散模型多概念 prompt 中的概念缺失/碰撞问题,提出"模式碰撞"假说(联合分布与单概念分布的模式重叠),设计 CO3(Concept Contrasting Corrector)通过在 Tweedie 均值空间中组合校正分布 \(\tilde{p}(x|C) \propto p(x|C) / \prod_i p(x|c_i)\) 来远离退化模式,实现即插即用、无梯度、模型无关的组合生成改进。

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

本文提出S²-Guidance,通过在去噪过程中随机丢弃transformer block激活子网络作为弱模型进行自引导,无需额外训练即可修正CFG的次优预测,在文生图和文生视频任务上一致超越CFG及其他高级引导策略。

TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex

扩展 VAE 形式主义提出 Task-Amortized VAE (TAVAE),通过在已学表示上灵活学习任务特异性先验来解释视觉皮层 V1 中的上下文调制现象,包括方向辨别任务中训练刺激与测试刺激不匹配时出现的双模态群体响应。

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

将 reward-guided 图像编辑重新建模为轨迹最优控制问题,将扩散/Flow模型的反向过程视为可控轨迹,通过基于 Pontryagin 最大值原理(PMP)的伴随状态迭代优化整条轨迹,在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

提出 TwinFlow,一种无需辅助训练模型(判别器/冻结教师)的自对抗流匹配框架,通过模型自身多步输出作为单步的教学目标实现单步生成,首次将 1-NFE 生成能力成功扩展到 20B 参数的 Qwen-Image 模型,GenEval 0.86(1-NFE)接近原始 100-NFE 的 0.87。