ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors¶

会议: ACL 2025
arXiv: 2502.14627
代码: github.com/ATRI-ACL/ATRI-ACL
领域: 语音/音频
关键词: 多语言音频文本检索, 跨语言一致性, 对比学习, 模态对齐, 数据分布误差

一句话总结¶

从理论上分析多语言音频文本检索（ML-ATR）中跨语言不一致性的根本原因是训练数据分布误差，并提出 1-to-K 对比学习（KCL）和音频-英语共锚对比学习（CACL）两种策略来减少该误差，在召回率和一致性上达到 SOTA。

研究背景与动机¶

音频文本检索（ATR）旨在根据跨模态查询在数据库中搜索匹配的音频片段或文本描述。虽然英语单语 ATR 性能不断提升，但多语言音频文本检索（ML-ATR）的研究仍然有限，面临两大核心挑战：

多语言召回率不高：现有 ML-ATR 方案在每个 epoch 中随机选择一种语言的文本与音频配对训练，导致模型无法充分学习音频与多语言文本之间的嵌入空间关系。

跨语言检索结果不一致：用不同语言查询同一音频时，检索结果排名差异很大。例如用英语描述和法语描述查询同一段声音，返回的排名可能截然不同。

现有 ML-CLAP 方案的训练方式本质上是在每个 epoch 随机采样一种语言做对比学习，这不仅降低了检索召回率，还导致检索一致性问题。作者首次从理论角度深入分析了这一问题的根源。

方法详解¶

整体框架¶

ATRI 方案的核心思想是：通过理论分析证明不一致性的根源是数据分布误差，然后设计两种策略来减少该误差。框架使用 CED-Base 作为音频编码器，SONAR 作为多语言文本编码器。

关键设计¶

理论分析——权重误差上界推导：作者首先从模态对齐方向误差的角度可视化了不一致性问题。理想情况下，音频嵌入应对齐到多语言文本嵌入的算术均值方向（绿色箭头），但随机采样导致音频只与单一语言文本对齐（红色箭头），两者之间的角度就是模态对齐方向误差。进一步推导出权重误差上界公式：

\(\|\mathbf{w}_{eT} - \mathbf{w}'_{eT}\| \leq a^T\|\mathbf{w}_{(e-1)T} - \mathbf{w}'_{(e-1)T}\| + \eta\sum_{(a,t)}\|p(a,t) - p'_e(a,t)\|\cdot(\text{梯度相关项})\)

展开后发现权重误差的根源完全来自各 epoch 的数据分布误差 \(\sum\|p(a,t) - p'_i(a,t)\|\)。

1-to-K 对比学习（KCL）：在每个 epoch 中同时使用所有 K 种语言的文本与音频做对比学习，理论上完全消除数据分布误差。损失函数包含 audio-to-text 和 text-to-audio 两个方向，对每种语言独立计算对比损失再求和。缺点是 GPU 显存开销随语言数 K 线性增长。
音频-英语共锚对比学习（CACL）：为解决 KCL 显存开销大的问题，提出 CACL 作为轻量替代。每条数据取三元组（音频，英语文本，随机其他语言文本），进行三组对比学习：
- 音频-英语对齐 \(\mathcal{L}^{ae}_{cacl}\)
- 音频-多语言对齐 \(\mathcal{L}^{at}_{cacl}\)
- 英语-多语言对齐 \(\mathcal{L}^{et}_{cacl}\)

CACL 的有效性可从两个视角理解：（a）英语-多语言对齐拉近了不同语言嵌入的距离，减小了模态对齐方向偏差；（b）每个 epoch 中训练了更多音频-文本对（且包含高质量英语文本），使实际数据分布更接近理论最优分布。关键优势是显存开销不随语言数增长。

损失函数 / 训练策略¶

KCL 损失：\(\mathcal{L}_{kcl} = \frac{1}{2NK}(\mathcal{L}^{a2t}_{kcl} + \mathcal{L}^{t2a}_{kcl})\)
CACL 损失：\(\mathcal{L}_{cacl} = \frac{1}{6N}(\mathcal{L}^{ae}_{cacl} + \mathcal{L}^{at}_{cacl} + \mathcal{L}^{et}_{cacl})\)
使用 ML-CLAP 预训练权重初始化，在翻译后的多语言 AudioCaps 和 Clotho 数据集上微调 10 个 epoch
批量大小 24，学习率 \(5\times 10^{-6}\)，温度参数 \(\tau = 0.07\)，Adam 优化器
单卡 A100 80GB 训练

实验关键数据¶

主实验¶

在 AudioCaps 数据集上的 T2A R@1 平均性能（8种语言）：

方案	T2A R@1 (avg)	A2T R@1 (avg)	相比 ML-CLAP 提升
ML-CLAP	44.84	61.19	-
CACL	46.03 (+1.19)	62.28 (+1.09)	召回一致提升
KCL	46.81 (+1.97)	62.91 (+1.72)	SOTA，R@1提升~2%

英语单语 ATR 结果（AudioCaps T2A R@1）：

方案	R@1	R@5	mAP10
ML-CLAP	47.31	80.65	61.44
CACL	49.05	82.14	63.07
KCL	49.68 (+5%)	82.44	63.34

一致性评估¶

方案	AudioCaps MRV↓	Clotho MRV↓	说明
ML-CLAP	较高	较高	跨语言一致性差
CACL	降低	降低	嵌入空间差距和距离缩小
KCL	最低	最低	一致性最佳

关键发现¶

理论与实验一致：KCL 完全消除数据分布误差，性能最优；CACL 减少分布误差，性能次之。两者都优于随机采样的 ML-CLAP
KCL > CACL > ML-CLAP：在绝大多数语言和指标上，KCL 持续领先
语言间性能差异：日语和中文的指标较低，因为它们与其他语言的语法差异较大
CACL 的实用价值：在性能接近 KCL 的情况下，显存和时间开销接近 ML-CLAP，是实际部署的更优选择
偶发异常：极少数指标上 KCL 低于 CACL，归因于数据集噪声（Clotho 上更常见）

亮点与洞察¶

理论驱动的方法设计：从权重误差上界推导出发，发现数据分布误差是不一致性的根本原因，再针对性设计解决方案，逻辑链条严密
理论与实验的精确对应：KCL（消除误差）> CACL（减少误差）> ML-CLAP（随机），完美验证理论预测
实用性考量：提供两种方案供不同场景选择——性能优先用 KCL，资源优先用 CACL
英语作为锚点的巧妙设计：英语通常是翻译的源语言，质量最高，以此为共锚点是很自然且有效的选择

局限与展望¶

仅在翻译数据集上验证（AudioCaps 和 Clotho），缺少原生多语言数据的评估
翻译质量可能影响结果，特别是日语和中文等语法差异大的语言
8 种语言的覆盖范围有限，低资源语言的表现未知
CACL 中选择英语作为锚点的假设可能不适用于所有场景
仅探索了 SONAR 文本编码器，对其他多语言编码器（如 mBERT）的效果未验证

评分¶

新颖性: ⭐⭐⭐⭐ 理论分析角度新颖，权重误差上界的推导为方法设计提供了坚实基础
实验充分度: ⭐⭐⭐⭐ 8种语言、2个数据集、多种指标、一致性分析全面，但缺少原生多语言数据
写作质量: ⭐⭐⭐⭐ 理论推导清晰，实验分析详尽，图示直观
价值: ⭐⭐⭐⭐ 对多语言音频检索领域有实质性推进，理论发现具有更广泛的指导意义