FLAM: Frame-Wise Language-Audio Modeling¶

会议: ICML2025
arXiv: 2505.05335
代码: flam-model.github.io
领域: 音频语言模型 / 声音事件检测
关键词: 开放词汇声音事件检测, 帧级对比学习, logit调整, 音频语言对齐, 数据增强

一句话总结¶

提出 FLAM，一个帧级音频-语言对比模型，通过文本依赖的 logit 偏置校正和百万级合成 SED 数据集，实现开放词汇声音事件的精确时间定位，同时保持全局检索和零样本分类性能。

研究背景与动机¶

现有 ALM 的局限：CLAP 等音频语言模型学习实例级全局嵌入，擅长文本-音频检索，但无法精确定位声音事件的时间边界
传统 SED 的限制：传统声音事件检测（SED）模型能精确定位事件，但局限于预定义类别，无法处理开放词汇的分布外事件
标注数据稀缺：与图像领域不同，音频帧级标注数据极其匮乏，人工标注成本高昂；现有 SED 数据集规模小、类别有限
自监督方法不足：先前的自监督局部对齐方法（如 MGA-CLAP）虽在一定程度上改善了帧级能力，但缺乏细粒度标注，定位效果有限

核心问题：如何在保持全局检索能力的同时，让 ALM 具备开放词汇的帧级声音事件定位能力？

方法详解¶

整体框架¶

FLAM 基于 LAION-CLAP 架构（HTSAT 音频编码器 + RoBERTa 文本编码器），扩展为同时输出全局嵌入和帧级嵌入序列。10秒音频输入经 HTSAT 后产生 \(L=32\) 帧的嵌入序列 \(\mathbf{e}^{a,loc}(x) \in \mathbb{R}^{L \times d}\)，全局表示通过对帧嵌入取平均获得。

帧级对比损失¶

将开放词汇 SED 建模为帧级二分类任务，对每个（音频帧, 文本事件描述）对判断事件是否在该帧活跃：

\[\mathcal{L}_{\text{SED}} = -\frac{1}{BKL}\sum_{i=1}^{B}\sum_{k=1}^{K}\sum_{l=1}^{L}\log\sigma\big(z_{i,k,l}\cdot h(X_i, l, \mathcal{Y}_k)\big)\]

其中 logit 函数包含文本依赖的缩放和偏置：

\[h(x, l, y) = \alpha^t(y)\;\mathbf{e}^{a,loc}(x)_l \cdot \mathbf{e}^t(y) + \beta^t(y)\]

\(\alpha^t(y) > 0\)：文本依赖的 logit 缩放，由 \(\text{MLP}^\alpha(E^t(y))\) 产生
\(\beta^t(y)\)：文本依赖的 logit 偏置，由 \(\text{MLP}^p(E^t(y))\) 产生

Logit 调整 — 处理事件依赖的类别不平衡¶

帧级标签严重不平衡（大部分帧–文本对为负样本），且不同事件的不平衡程度不同（如"雷声"出现少且持续短，"雨声"频繁且持续长）。

贝叶斯最优分类器：推理时使用无偏分类器，将原始预测归一化为与事件先验无关的定位得分：

\[s(x, l, y) = \frac{p(z=1|x,l,y)}{p(z=1|x,l,y) + p(z=1|y)} \approx \sigma\!\left(\log\frac{p(y|x,l)}{p(y)}\right)\]

偏置训练：单独训练 \(\beta^t\) 来近似最优偏置 \(\beta^*(y) = \log\frac{p(z=1|y)}{p(z=-1|y)}\)，使用辅助损失 \(\mathcal{L}_p\) 并阻断 \(\mathcal{L}_{\text{SED}}\) 对其的梯度传播：

\[\mathcal{L}_p = -\frac{1}{K}\sum_{k=1}^{K}\big[\bar{z}_k\log\sigma(\beta^t(\mathcal{Y}_k)) + (1-\bar{z}_k)\log\sigma(-\beta^t(\mathcal{Y}_k))\big]\]

联合训练目标¶

\[\mathcal{L} = \gamma^{\text{CLIP}}\mathcal{L}_{\text{CLIP}} + \gamma^{\text{SED}}\mathcal{L}_{\text{SED}} + \gamma^p\mathcal{L}_p\]

其中 \(\gamma^{\text{CLIP}}=1\)，\(\gamma^{\text{SED}}=200\)，\(\gamma^p=1\)。

内存高效训练¶

采用 SigLIP 风格的分块 ring 传输策略：每个 GPU 处理本地子集的帧–文本对损失，文本嵌入通过环形传递在 GPU 间流转，避免在单个 GPU 上聚集所有嵌入，支持大 batch 训练。

数据增强管道¶

从 1.1M 音频样本（授权音效库 + CC 授权通用数据集）中合成 100 万个 10 秒混合样本：

随机选取一个背景音频（≥10秒，含"ambiance"关键词）
采样 \(N \sim \mathcal{U}(1, 10)\) 个事件（80% 音效数据集，20% 通用数据集）
随机放置事件，最多 3 个同时重叠
10% 的事件分拆为 2-3 段，10% 重复 2-3 次，模拟真实场景
随机响度偏移 \(\mathcal{U}(6,30)\) dB，10ms 淡入淡出
基于 A 加权 RMS 响度做边界校正（<-70 dB 标记为非活跃）

使用 Mixtral 为音效生成 2-13 词的 caption。

实验关键数据¶

声音事件检测（Table 1）¶

模型	Held-out AUROC	ASFX-SED AUROC	DESED AUROC	MAESTRO MPAUC	AudioSet-S AUROC	UrbanSED AUROC
FLAM-Global	67.76	65.14	85.52	51.13	82.54	67.39
FLAM	91.00	81.23	91.66	56.97	94.76	93.62
MGA-CLAP*	74.17	69.56	89.28	52.50	79.12	78.22

FLAM 在几乎所有指标上大幅超越基线，开放词汇 SED（Held-out）AUROC 从 67.76 提升至 91.00。

零样本分类（Table 3）¶

模型	ESC-50	US8K	VGGSound
FLAM-Global	81.6	65.4	38.9
FLAM	86.9	75.6	39.3
MGA-CLAP*	72.6	69.9	38.6

帧级监督不仅不损害全局表示，反而提升了零样本分类准确率。

检索性能（Table 2）¶

FLAM 在检索任务上与 FLAM-Global 性能接近（AudioCaps T2A R@1: 32.1 vs 36.0），帧级训练对全局检索的影响极小。

亮点与洞察¶

开放词汇 SED 的清晰建模：将帧级事件定位建模为帧–文本对的二分类，继承对比学习框架，推理时预计算音频嵌入后只需编码新文本 query，效率高
文本依赖的 logit 调整：引入事件特定的缩放和偏置来处理事件级类别不平衡，使输出从原始余弦相似度转化为校准概率，理论推导严谨
大规模合成数据管道：百万级混合样本 + 精确边界标注，巧妙解决帧级标注稀缺问题，同时通过分拆/重复策略模拟真实场景
帧级监督反哺全局表示：零样本分类性能提升（ESC-50 81.6→86.9），证明细粒度对齐也能增强判别能力
内存高效训练：ring 传输避免中心化收集，使大规模帧级对比训练可行

局限与展望¶

固定输入长度：仅支持 10 秒音频，粗帧分辨率（32帧/10秒），难以处理长音频或需要更精细时间粒度的场景
合成数据 vs 真实数据鸿沟：训练数据为合成混合，真实场景中事件有更复杂的混响、遮掩和共现模式
模型规模较轻：HTSAT + RoBERTa 相对轻量，更大的编码器 / 更具表达力的架构可能带来进一步提升
DESED 上 PSDS 不理想：仅 692 个真实标注样本导致高方差，暗示在小规模真实标注场景下仍有不足
检索性能有所下降：AudioCaps T2A R@1 从 36.0 降至 32.1，帧级训练与全局检索目标存在一定 trade-off

评分¶

新颖性: ⭐⭐⭐⭐ — 将帧级对比学习与文本依赖 logit 调整结合用于开放词汇 SED，思路清晰且原创
实验充分度: ⭐⭐⭐⭐ — 覆盖开放/封闭 SED、检索、零样本分类多个维度，消融实验完整
写作质量: ⭐⭐⭐⭐ — 理论推导严谨，符号体系一致，图示直观
价值: ⭐⭐⭐⭐ — 开放词汇帧级音频定位是实用且重要的方向，方法可推广至更广泛的音频理解任务