跳转至

🎵 音频/语音

🧪 ICML2025 · 6 篇论文解读

Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition

本文提出 LatentVoiceMix,在语音转换模型 Diff-HierVC 的说话人风格编码器潜在空间中进行 mixup 插值,生成具有新颖声音特征的合成语音数据用于增强 ASR 训练,在低资源语言 Wolof 上取得了优于波形增强、频谱增强和标准语音转换的 WER 改善效果。

FLAM: Frame-Wise Language-Audio Modeling

提出 FLAM,一个帧级音频-语言对比模型,通过文本依赖的 logit 偏置校正和百万级合成 SED 数据集,实现开放词汇声音事件的精确时间定位,同时保持全局检索和零样本分类性能。

OmniAudio: Generating Spatial Audio from 360-Degree Video

提出 OmniAudio 框架,首次实现从 360 度全景视频生成 First-order Ambisonics (FOA) 空间音频,通过 coarse-to-fine 自监督预训练和双分支视频编码架构,在自建的 Sphere360 数据集上取得 SOTA 性能。

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

提出 Wavelet Attribution Method (WAM),将特征归因从像素域迁移到小波域,利用小波系数的空间-尺度局部性为音频、图像、体数据提供统一且更具结构信息的模型解释。

Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems

提出 Sortformer——一个基于编码器的说话人日志模型,通过 Sort Loss 按说话人到达时间排序来解决排列问题,替代或辅助传统的排列不变损失(PIL),并设计正弦核函数将说话人标签注入 ASR 编码器,使多说话人 ASR 训练可直接使用标准交叉熵损失,在 LibriSpeechMix 上实现 2-mix/3-mix 相对误差降低 30%/25%。

Teaching Physical Awareness to LLMs through Sounds

提出 ACORN 框架,通过基于物理的声学通道仿真器生成大规模训练数据,配合同时捕获幅度和相位信息的音频编码器,教会 LLM 从声音中理解物理世界现象。