Towards Fine-Grained and Multi-Granular Contrastive Language-Speech Pre-training¶

会议: ACL 2026
arXiv: 2601.03065
代码: GitHub
领域: 音频语音
关键词: 语音风格建模, 对比学习预训练, 细粒度标注, 语音-文本对齐, 副语言学

一句话总结¶

本文提出FCaps大规模数据集（47k小时语音、19M细粒度标注）和CLSP对比学习模型，通过端到端标注管线和细粒度多粒度对比监督，实现了首个能统一表征全局和细粒度语音风格的语音-文本对齐模型。

研究背景与动机¶

领域现状：语音风格（speaking style）传递了丰富的副语言信息，包括说话人固有特征（性别、年龄、口音）和情境性特征（语速、情感、表达力）。现有语音-文本表示学习方法通常依赖粗粒度标签或任务特定监督，无法捕捉语音风格的细粒度时间结构。

现有痛点：现有语音风格标注数据集主要采用级联标注管线——先用离散标签标注语音，再用大语言模型将标签改写为自然语言描述。这种方法存在根本性的信息瓶颈：中间的离散标签将丰富的、连续的、时变的副语言信息压缩到有限的预定义类别中，导致严重的信息损失和语义偏差。

核心矛盾：细粒度语音风格建模需要高质量、大规模的自由文本描述，但现有方法要么依赖人工标注（成本高、一致性差），要么使用级联管线（引入误差传播和信息损失）。

本文目标：(1) 构建大规模端到端的细粒度语音风格标注数据集，避免级联管线的信息瓶颈；(2) 训练能统一表征多粒度语音风格的对比学习模型。

切入角度：利用最新的多模态标注模型（Qwen3-Omni）直接从音频生成细粒度描述，绕过离散标签中间步骤，并通过智能体验证流程保证标注质量。

核心 idea：端到端标注管线 + 细粒度多粒度对比学习，消除信息瓶颈并实现从全局到细粒度的统一语音-文本表示。

方法详解¶

整体框架¶

整体分为数据构建和模型训练两部分。数据端，通过端到端管线构建FCaps数据集，包含FCaps-Emilia（46,787小时、18M细粒度标注）和FCaps-PSCBase（267小时、14万全局标注+93万细粒度标注）。模型端，CLSP采用双编码器架构（SPEAR-XLarge语音编码器 + RoBERTa文本编码器），通过两阶段课程学习进行对比训练：第一阶段在大规模细粒度数据上做标准对比学习，第二阶段引入多正例对比学习实现跨粒度泛化。

关键设计¶

端到端标注管线:
- 功能：直接从音频生成高质量细粒度语音风格描述，避免级联管线的信息损失
- 核心思路：使用Qwen3-Omni-30B作为详细标注器，直接以语音片段为输入生成细粒度描述，通过用户提示约束输出聚焦于说话人风格（抑制转录内容和环境声描述）。为同一语音片段使用不同随机种子多次生成，获取多个正例视图。然后使用Qwen3-30B推理模型作为验证智能体，按预定义检查清单（是否包含背景声/环境噪声描述、是否有缺失声明、是否包含无风格描述的转录内容等）过滤低质量标注
- 设计动机：级联管线中的离散标签是信息瓶颈，端到端生成直接以音频为条件，保留了完整的副语言信息；多正例生成比纯文本改写更可靠，因为每个标注都基于原始音频信号
细粒度多粒度对比学习:
- 功能：学习能在不同粒度上统一表征语音风格的嵌入空间
- 核心思路：第一阶段使用标准对称InfoNCE损失在大规模细粒度数据上训练 \(\mathcal{L} = -\frac{1}{2N}\sum_{i=1}^{N}(\log\frac{\exp(\mathbf{s}_i \cdot \mathbf{t}_{Fi}/\tau)}{\sum_j \exp(\mathbf{s}_i \cdot \mathbf{t}_{Fj}/\tau)} + \text{反向})\)。第二阶段使用多正例InfoNCE，每个语音配对两个文本（一全局一细粒度，或两个不同细粒度），通过软目标分布 \(D_{i,j}\) 分配概率质量（\(\lambda = 0.5\)），损失为交叉熵 \(\mathcal{L} = \frac{1}{2}(\mathrm{CE}(\mathbf{L}/\tau, \mathbf{D}) + \mathrm{CE}(\mathbf{L}^\top/\tau, \mathbf{D}'))\)
- 设计动机：两阶段课程从纯细粒度对齐逐步过渡到跨粒度泛化，第一阶段建立精确的细粒度对应，第二阶段通过全局+细粒度混合训练实现跨粒度一致性
动态任务调度器:
- 功能：在第二阶段平衡跨粒度泛化和细粒度判别
- 核心思路：每个训练步随机采样两个任务之一——任务1（全局+细粒度配对）或任务2（两个不同细粒度配对）。采样概率 \(p_t\) 从 \(p_0 = 0.95\) 线性下降到 \(p_{min} = 0.50\)，在 \(T = 10000\) 步内完成过渡：\(p_t = \max(p_{min}, p_0 - \frac{t}{T}(p_0 - p_{min}))\)
- 设计动机：训练初期侧重跨粒度对齐（任务1占主导），后期增加细粒度判别（任务2占比上升），实现渐进式学习

损失函数 / 训练策略¶

CLSP共724M参数（SPEAR-XLarge 599M + RoBERTa 125M），在8块A100 80GB上训练。第一阶段1.2M步，第二阶段4k步微调。使用ScaledAdam优化器和Eden学习率调度器，峰值学习率分别为0.045和0.001。温度参数 \(\tau\) 可学习。

实验关键数据¶

主实验¶

任务	指标	CLSP	之前SOTA(ParaCLAP)	提升
全局检索 S→T	R@1	45.6	2.1	+43.5
全局检索 T→S	R@1	40.3	0.4	+39.9
细粒度检索 S→T	R@1	68.1	1.2	+66.9
细粒度检索 T→S	R@1	67.2	1.2	+66.0
零样本情感(IEMOCAP)	WA/UA	57.2/56.1	46.1/46.5	+11.1/+9.6
零样本性别(RAVDESS)	WA/UA	100.0/100.0	99.2/99.2	+0.8
风格相似度(固有特征)	Pearson r	0.893	0.663	+0.230
风格相似度(情境特征)	Pearson r	0.903	0.323	+0.580

消融实验¶

配置	说明	效果
端到端标注 vs 级联标注	正确性/覆盖度/自然度	4.42/4.55/4.92 vs 3.30/3.10/4.15
静态调度 vs 动态调度	任务采样策略	动态优于静态
\(\lambda=0.5\) vs 其他	多正例权重分配	0.5最优

关键发现¶

CLSP在所有任务上均大幅领先现有方法，尤其在检索任务上提升巨大（R@1从个位数到40-68%）
端到端标注质量全面优于级联标注：正确性+1.12、覆盖度+1.45、自然度+0.77
在语音风格相似度评分上与人类判断高度一致（Pearson r > 0.88），尤其在情境特征上（0.903 vs ParaCLAP的0.323）远超现有方法
零样本分类性能强劲，情感识别WA达57.2%，性别识别100%，说明学到的表示具有良好的副语言信息编码能力

亮点与洞察¶

FCaps是目前最大的细粒度语音风格标注数据集（47k小时、19M标注），填补了关键的数据空白
端到端标注管线的设计思路值得推广——直接从原始信号生成描述避免了信息瓶颈，智能体验证保证了质量
两阶段课程学习从细粒度到跨粒度的渐进训练策略有效，仅4k步微调就显著提升了跨粒度能力
CLSP可以作为语音风格评估器使用，与人类判断的高相关性使其有望替代昂贵的主观评估

局限与展望¶

当前仅支持英文语音，跨语言的语音风格建模有待扩展
端到端标注管线依赖Qwen3-Omni的质量，该模型本身的偏差可能传递到标注中
文本编码器使用RoBERTa-base（125M），更大的文本编码器可能进一步提升性能
未探索细粒度标注中的时间对齐——当前标注描述话语内的风格变化但不提供精确时间戳

评分¶

新颖性: ⭐⭐⭐⭐⭐ 端到端标注管线和多粒度对比学习都是重要创新，FCaps数据集贡献巨大
实验充分度: ⭐⭐⭐⭐⭐ 标注质量评估、4类下游任务、与人类判断的相关性分析全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数据集构建过程详实
价值: ⭐⭐⭐⭐⭐ 数据集和模型均开源，对语音风格建模和评估有广泛影响