跳转至

🎨 图像生成

📷 CVPR2025 · 共 17

AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys

提出 AS-Bridge,用双向布朗桥扩散模型建模地面 LSST 和太空 Euclid 两大天文巡天之间的随机映射关系,实现概率性跨巡天翻译与稀有事件检测(强引力透镜),并证明 epsilon-prediction 训练目标兼具重建质量和似然性优势。

Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing

系统性地将学习式图像处理中卷积的替代/扩展算子组织为五大家族(分解型、自适应加权型、基自适应型、积分/核型和注意力型),并从线性、局部性、等变性、计算成本和任务适用性等多个维度进行比较分析。

BiGain: Unified Token Compression for Joint Generation and Classification

BiGain 首次将扩散模型的 token 压缩重新定义为生成+分类的双目标优化问题,提出拉普拉斯门控 token 合并(L-GTM)和插值-外推 KV 下采样(IE-KVD)两个频率感知算子,在保持生成质量同时显著提升分类准确率(ImageNet-1K 70%合并比下 Acc +7.15%,FID -0.34)。

coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation

提出 coDrawAgents,由 Interpreter、Planner、Checker、Painter 四个专家 agent 组成的交互式多智能体对话框架,通过分而治之的增量布局规划、视觉上下文感知推理和显式错误纠正,在 GenEval 上达到 0.94(SOTA)、DPG-Bench 上 85.17(SOTA)。

DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression

DiT-IC 将预训练 T2I 扩散 Transformer 适配为单步图像压缩重建模型,在 32x 下采样的深层潜空间工作,通过方差引导重建流、自蒸馏对齐和潜变量条件引导三种对齐机制,实现 SOTA 感知质量且解码比现有扩散 codec 快 30 倍。

Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

提出 DIAE,通过多模态美学感知模块(MAP)将模糊美学指令转化为 HSV/轮廓图+文本的多模态控制信号,并构建"非完美配对"数据集 IIAEData 配合双分支监督策略实现弱监督美学增强,在 LAION 和 MLLM 美学评分上达 SOTA。

EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

EvoTok 提出了一种基于残差潜在演化(Residual Latent Evolution)的统一图像 tokenizer,通过在共享潜空间中级联残差向量量化,使表示从浅层的像素级细节渐进演化到深层的语义级抽象,在仅用 13M 图像训练的情况下实现了 0.43 rFID 的重建质量,并在 7/9 个理解 benchmark 和 GenEval/GenAI-Bench 上取得优异效果。

Generation of Maximal Snake Polyominoes Using a Deep Neural Network

将 DDPM 应用于生成最大蛇形多联骨牌,提出精简版 Structured Pixel Space Diffusion(SPS Diffusion),在训练到 14x14 正方网格的情况下泛化到 28x28 并生成有效蛇形,部分结果超越已知最大长度下界。

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

提出 InterEdit,首个文本引导的多人 3D 运动交互编辑框架,通过 Semantic-Aware Plan Token Alignment 和 Interaction-Aware Frequency Token Alignment 在扩散模型中实现语义编辑的同时保持多人之间的时空耦合关系。

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

揭示 DiT 的计算在空间 token 上均匀分配(不会把多余计算重分配到困难区域),提出 ELIT——在 DiT 中插入可变长度的 latent interface(Read/Write 交叉注意力),训练时随机丢弃尾部 latent 学出重要性排序,推理时通过调节 latent 数量实现平滑的质量-FLOPs 权衡,ImageNet 512px 上 FID 降低 53%。

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

提出 Concept-Gated Visual Distillation (CGVD),一种无需训练的推理时框架,通过语言指令解析 → SAM3 分割 → 集合论交叉验证 → LaMa 修复的流水线,从 VLA 模型的视觉输入中选择性移除语义干扰物,在高度杂乱场景中将 π₀ 的操作成功率从 43.0% 提升至 77.5%。

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

提出 AC-DC 去噪器(Auto-Correction + Directional Correction + Score-Based Denoising 三阶段),解决将 score-based 扩散先验嵌入 ADMM-PnP 框架时的流形不匹配问题,并首次建立了 score-based 去噪器在 ADMM 中的收敛性理论保证,在去噪、修复、去模糊、超分辨、相位恢复、HDR 等逆问题上一致超越现有基线。

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

提出 FIRM 框架——通过"差异优先"(编辑)和"计划-打分"(生成)的数据构建流水线训练专用奖励模型(FIRM-Edit-8B / FIRM-Gen-8B),配合"Base-and-Bonus"奖励策略(CME/QMA)解决 RL 中的奖励 hacking 问题,在图像编辑和 T2I 生成任务上均取得 SOTA。

Unicom Unified Multimodal Modeling Via Compressed Continuous Semantic Representa

提出 UniCom,通过对 VLM 连续语义特征进行通道维度压缩(而非空间下采样),构建紧凑连续表示空间,用 Transfusion 架构统一多模态理解与生成,在统一模型中达到 SOTA 生成质量。

V-Bridge Bridging Video Generative Priors To Versatile Few-Shot Image Restoratio

将图像复原重新定义为渐进式视频生成过程,利用预训练视频生成模型(Wan2.2-TI2V-5B)的先验知识,仅用 1,000 个多任务训练样本(不到现有方法的 2%)即可实现竞争力的多任务图像复原。

Visual-Erm Reward Modeling For Visual Equivalence

提出 Visual-ERM,一个多模态生成式奖励模型,在视觉空间中直接评估 vision-to-code 任务的渲染质量,提供细粒度、可解释、任务无关的奖励信号,用于 RL 训练和测试时缩放。

When To Lock Attention Training-Free Kv Control In Video Diffusion

提出 KV-Lock,一种基于扩散幻觉检测的免训练视频编辑框架,通过动态调度 KV 缓存融合比例和 CFG 引导尺度,在保持背景一致性的同时增强前景生成质量。