跳转至

🎨 图像生成

💬 ACL2025 · 共 4

D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Models

提出 D-GEN——首个开源干扰项生成模型(LLaMA微调,8B/70B),自动将开放式评测题转为多选题格式,配套排名对齐+熵分析两种评估方法验证干扰项质量,在 MMLU 上 Spearman's ρ=0.99 保持模型排名一致性。

Planning with Diffusion Models for Target-Oriented Dialogue Systems

DiffTOD 将对话规划建模为轨迹生成问题,利用掩码扩散语言模型实现非顺序对话规划,并设计三种引导机制(词级/语义级/搜索级)灵活控制对话朝目标推进,在谈判/推荐/闲聊三种场景上显著超越基线。

FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation

将整流流(Rectified Flow)引入文本转音频生成,通过双焦采样器优化时间步分布、不混溶流减少数据-噪声总距离、锚定优化修正 CFG 引导误差,实现单步生成 FAD=1.49 超越百步扩散模型,生成速度达实时 400 倍。

R-VC: Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow Matching

R-VC 是首个实现节奏可控的零样本语音转换系统,通过 Mask Transformer 时长模型建模目标说话人的节奏风格,结合 Shortcut Flow Matching 的 DiT 解码器实现仅 2 步采样的高效高质量语音生成,在 LibriSpeech 上 WER 3.51、说话人相似度 0.930。