🎵 音频/语音¶
🧠 NeurIPS2025 · 共 25 篇
- A Controllable Examination for Long-Context Language Models
-
提出LongBioBench,通过生成虚构传记作为可控的needle和haystack,构建满足"无缝上下文、可控设置、可靠评估"三大原则的长上下文LLM评估框架,测试18个模型后揭示当前LCLM在检索能力尚可的情况下推理和可信性仍有显著短板。
- A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
-
TRIANGLE提出用三模态嵌入向量端点构成的三角形面积作为相似度度量,替代传统的两两余弦相似度,实现视频-音频-文本的联合对齐,在视频检索任务上比VAST提升最高9个R@1点。
- Accelerate Creation of Product Claims Using Generative AI
-
开发 Claim Advisor 平台,利用 LLM 的 in-context learning 和 LoRA 微调加速消费品产品宣称的搜索、生成、优化和排序,通过模仿 MaxDiff 研究方法论让微调的 Phi-3 14B 模型在宣称排序上超越 GPT-4o(仅用 1 个示例 vs GPT 的 100 个示例),三轮迭代后 100% 的生成宣称达到"高吸引力"级别。
- AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness
-
提出AdaptDel方法,将随机平滑(randomized smoothing)中的固定删除率扩展为自适应删除率,根据输入长度等属性动态调整删除概率,在编辑距离攻击下实现认证鲁棒性的巨大提升(认证区域基数提升最高30个数量级)。
- Associative Syntax and Maximal Repetitions Reveal Context-Dependent Complexity in Animal Vocalizations
-
提出基于"关联句法"和"最大重复"的信息论框架分析动物发声序列的结构复杂度,发现动物发声(如鲸鱼歌声)展现出上下文依赖的复杂句法结构,超越了简单的马尔可夫假设。
- AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound
-
AudSemThinker 为音频语言模型引入结构化语义推理框架——定义 9 类声音语义描述符(谁/什么/如何/何时/何地等),在 Qwen2.5-Omni-7B 上通过 SFT + GRPO(含可验证奖励和长度约束)训练产生 \<think>\<semantic_elements>\<answer> 三阶段输出,MMAU 基准达 66.70%(超越 Audio-Reasoner 61.71% 和 Qwen2.5-Omni 65.60%)。
- Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
-
Meta 提出 WAGIBench,一个针对可穿戴辅助智能体的多模态目标推断基准,包含 348 名参与者的 3,477 条第一视角录制(29小时),涵盖视觉/音频/数字/纵向四种模态,人类准确率 93% vs 最佳 VLM 84%(MCQ),生成式评估中模型仅 55% 时间产生相关目标,揭示了当前 VLM 在实际可穿戴场景中的显著差距。
- BNMusic: Blending Environmental Noises into Personalized Music
-
提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。
- Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation
-
提出 RecBench 综合评估框架,在5个领域数据集上系统对比17个LLM与10个传统DLRM,发现LLM推荐器在CTR任务上AUC提升最高5%、在序列推荐上NDCG@10提升最高170%,但推理速度慢10-1000倍,而传统DLRM结合LLM语义嵌入(LLM-for-RS)可以20倍更快的速度达到LLM约95%的性能,是当前最具工业可行性的方案。
- DeepASA: An Object-Oriented Multi-Purpose Network for Auditory Scene Analysis
-
提出 DeepASA,一个面向对象的多任务统一架构,通过 object-oriented processing 和 chain-of-inference 机制在单一模型中同时完成多通道声源分离(MIMO)、去混响、声事件检测(SED)、音频分类和到达方向估计(DoAE),在多个空间音频基准上达到 SOTA。
- E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models
-
提出首个面向语音基础模型的无反向传播测试时自适应框架 E-BATS,通过轻量级 prompt 自适应、多尺度损失函数和测试时 EMA 机制,在保持高精度的同时实现 2.0×–6.4× 的 GPU 显存节省。
- E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
-
针对基于 LLM 的端到端语音合成中的声音克隆威胁,提出 E2E-VGuard 主动防御框架,通过编码器集成扰动音色、对抗样本干扰 ASR 发音识别、以及心理声学模型保证不可感知性,在 19 个 TTS 模型和 7 个 ASR 系统上验证了有效性。
- Echoes of Humanity: Exploring the Perceived Humanness of AI Music
-
通过随机对照交叉试验(RCCT)和混合方法内容分析,系统研究听众区分AI生成音乐(AIM)与人类创作音乐的能力,发现随机配对时听众无法区分(准确率≈随机猜测),但相似配对时显著提升至66%,且声音/技术/人声线索是成功区分的关键因素。
- Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
-
提出 SLED,将语音波形编码为连续潜在表示序列,在连续空间中通过 energy distance 目标进行自回归建模,避免了离散化信息损失和 RVQ 所需的复杂层级架构,同时实现高效的零样本与流式语音合成。
- Embedding Alignment in Code Generation for Audio
-
提出双 MLP + InfoNCE 对比学习框架,将代码嵌入(distilroberta-base)和音频嵌入(wav2vec2)对齐到共享空间,使 LLM 代码生成流程无需编译执行即可从代码推断音乐相似性,CKA 从 0.090 提升至 0.590。
- Instance-Specific Test-Time Training for Speech Editing in the Wild
-
提出面向野外语音编辑的实例特定测试时训练方法:在推理前利用未编辑区域的真实声学特征做直接监督、编辑区域通过时长约束和音素预测辅助损失做间接监督,对模型进行实例级自适应微调,有效缓解编辑边界的带宽不连续问题,并支持通过 mask 长度调整精确控制语速,在野外 benchmark 上主客观评估均超越现有系统。
- Latent Space Factorization in LoRA
-
提出 FVAE-LoRA,在 LoRA 框架中引入具有双潜空间的 VAE,通过新型 ELBO 目标将任务相关特征 (\(\mathbf{z}_1\)) 与残差信息 (\(\mathbf{z}_2\)) 显式分解,在文本、图像、音频任务上一致优于标准 LoRA。
- Multi-head Temporal Latent Attention
-
MTLA 在 MLA 低秩潜在维度压缩基础上,用超网络动态融合时序相邻的 KV 向量,实现 KV 缓存在特征维度和时序维度的双重压缩,配合 stride-aware 因果 mask 保证训练-推理一致性,在语音翻译等任务上达到 4.29× 加速和 6.58× 内存降低,质量持平甚至略优于标准 MHA。
- Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
-
证明在自编码器训练中对潜变量加噪(noise-augmented latent training)配合感知损失,能使编码空间形成"感知层次结构"——感知最显著的音乐特征(如音高)编码在最粗粒度的潜在结构中,而次要特征(如音色细节)编码在细粒度结构中。这种对齐改善了潜在扩散解码下的音乐惊奇感估计和 EEG 脑响应预测。
- SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers
-
提出 SAND-Math,一个无需种子数据集的全自动合成数学问题生成管线,通过 Difficulty Hiking 系统性提升题目难度,仅 500 道增强 LIMO 基线即可在 AIME25 上提升 4.39pp。
- Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI Models in Sound Localization
-
系统性地揭示了AI声源定位(SSL)模型存在严重视觉偏见——在视听冲突时降到随机水平,提出神经科学启发的EchoPin模型(HRTF滤波+耳蜗图+立体声),在AudioCOCO数据集上大幅超越现有方法并展现出类人的水平>垂直定位精度偏差。
- Sound Logical Explanations for Mean Aggregation Graph Neural Networks
-
针对使用均值聚合函数的 GNN(MAGNN,即非负权重的 mean-GNN),证明了能够作为其 sound 解释的单调逻辑规则的精确类别,并构造了一个一阶逻辑的受限片段来解释任意 MAGNN 预测,实验表明限制非负权重不显著影响性能且能有效提取 sound 规则。
- AVRobustBench: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
-
提出 AVRobustBench,首个系统评估音视频模型在 双模态共现关联腐蚀 下测试时鲁棒性的基准,包含 4 个数据集 × 75 种腐蚀,并提出基于低熵样本筛选的 TTA 方法 AV2C。
- The Impact of Scaling Training Data on Adversarial Robustness
-
系统评估 36 个 SOTA 视觉模型在 6 类黑盒攻击下的鲁棒性,发现攻击成功率(ASR)随数据量和模型规模按对数律下降,但 数据质量和模型规模比数据量本身更关键。
- WhAM: Towards A Translative Model of Sperm Whale Vocalization
-
提出 WhAM(Whale Acoustics Model),首个基于 Transformer 的抹香鲸 coda 生成模型,通过微调 VampNet 实现声学翻译、合成生成与下游分类的三合一能力。