🖼️ 图像恢复¶

🔬 ICLR2026 · 共 8 篇

Activation Steering for Masked Diffusion Language Models: 首次将激活引导（activation steering）应用于 Masked Diffusion 语言模型（MDLM），发现 MDLM 的拒绝行为也受单一低维方向控制，通过在去噪过程中全局投影可完全绕过安全对齐，且与自回归模型不同，有效方向可从指令前的 token 中提取——反映了扩散模型的非因果并行处理特性。
Are Deep Speech Denoising Models Robust to Adversarial Noise?: 首次系统性评估 4 款 SOTA 深度语音去噪（DNS）模型在对抗噪声下的鲁棒性：通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声，可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish，实验覆盖多种声学条件和人类评估，同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。
Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes: LSP 调度器通过在每个去噪步骤中原子性地提交最长连续稳定前缀（而非分散接受离散 token），将 DLM 推理加速 3.4 倍，同时保持或略微提升输出质量。
DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation: 提出 DiffusionBlocks，将残差网络的逐层更新解释为连续时间扩散过程的离散化步骤，从而将网络切分为可完全独立训练的 block，在保持端到端训练性能的同时按 block 数 B 倍减少训练显存。
Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss: 将 EDLAE 推荐模型的目标函数推广为解耦期望二次损失（DEQL），在超参数 \(b>0\) 的更广范围内推导出闭式解，并通过 Miller 矩阵逆定理将计算复杂度从 \(O(n^4)\) 降至 \(O(n^3)\)，在多个基准数据集上超越 EDLAE 和深度学习模型。
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions: 提出 InterActHuman，通过自动推断时空布局的掩码预测器和迭代掩码引导策略，实现多人/人物交互场景下的音频驱动视频生成，支持每个角色独立的语音驱动口型同步和身体动作。
ProtoTS: Learning Hierarchical Prototypes for Explainable Time Series Forecasting: 提出 ProtoTS，通过层级原型学习实现可解释时间序列预测：少量粗粒度原型提供全局模式概览，逐级细分捕捉局部变化，结合多通道嵌入与瓶颈融合处理异质外生变量。在 LOF 数据集上 MSE 降低 48.3%，MAE 降低 20.9%，且支持专家编辑原型以进一步提升性能。
Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerabilities: 揭示了掩码扩散语言模型（MDLM）中的"启动漏洞"（priming vulnerability）——在去噪中间步骤注入肯定性 token 可绕过安全防线，并提出 Recovery Alignment（RA）方法训练模型从被污染的中间状态恢复到安全响应。