跳转至

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training

会议: ACL 2025
arXiv: 2503.02769
代码: SpeechInstructBench
领域: LLM/NLP
关键词: SpeechLLM, 语音指令遵循, 交错预训练, 语音-文本对齐, Benchmark

一句话总结

提出 InSerter(交错语音-文本预训练)方法,通过 TTS 将大规模文本语料合成为交错的语音-文本序列进行预训练,大幅提升 SpeechLLM 的语音指令遵循能力,并构建首个全面的语音指令遵循基准 SpeechInstructBench。

研究背景与动机

  1. 语音指令遵循的语义鸿沟:当前 SpeechLLM 处理语音输入时,智能水平显著低于处理文本输入,语音-文本模态间的语义不一致是核心瓶颈。
  2. 表征对齐的局限:直接对齐连续语音帧与离散文本 token 的表征会损失语调、能量、音高等关键声学特征,因为两者粒度天然不匹配。
  3. 行为对齐的扩展性差:通过后训练阶段让模型对语音/文本输入产生一致输出的方法,依赖高质量配对数据,数据构造复杂且难以大规模扩展。
  4. 缺乏专用评测:现有 Benchmark(如 VoiceBench)主要评估通用对话能力,缺少对语音指令遵循(含口音、噪声、语流不畅等)的系统性评测。
  5. 预训练阶段的启发:文本智能的涌现来自预训练阶段的无监督 next-token prediction,作者希望将这一机制迁移到语音模态。
  6. 训练效率低:已有行为对齐方法每个样本仅优化一条语音序列的文本续写,InSerter 通过交错格式实现多段对齐,显著提升训练效率。

方法详解

整体框架

InSerter 采用两阶段训练:(1)在预训练阶段引入大规模交错语音-文本数据,通过 next-token prediction 让语音表征继承文本的认知能力;(2)SFT 阶段使用对话数据增强交互性能。基座模型为 Qwen2-Audio-7B(Whisper-Large-v3 编码器 + Q-Former 适配器 + LLM)。

模块一:交错数据构造

三阶段流水线: - 文本语料收集与预处理:汇聚大规模长文本和对话数据,正则清洗后得到约 6100 亿 token 的文本语料。 - 片段采样:在文本中随机选取片段转为语音,支持两种粒度——词级采样(随机选词,最少 5 词保证语义完整)和句级采样(以标点为界随机选句)。 - TTS 转换:使用 CosyVoice 2.0 模型配合 10,000 种不同音色 prompt 合成语音,最终生成 301,540 小时的语音数据,与剩余文本拼接形成交错序列。

模块二:交错预训练(Stage 1)

  • 输入为交错的语音片段(经 speech encoder + adapter 编码为连续表征)与文本片段。
  • 训练目标为标准交叉熵损失,仅在文本 token 上计算 loss,语音段 token 被 mask 掉。
  • 数据配比:40% 交错数据 + 30% 多任务语音数据 + 30% 纯文本数据。
  • 超参:batch size 1024,序列长度 8192,训练 1 epoch。

模块三:SFT 微调(Stage 2)

  • 使用对话数据进行监督微调,混入 50% 文本数据,共 20K 样本。
  • 训练 7000 iterations(消融实验确定最优步数),学习率 1e-5,Adam 优化器。

训练细节

  • 词级交错最优语音片段占比约 30%,句级约 40%。
  • 交错数据在预训练数据中的最优占比为 40%。
  • InSerter 可与后训练对齐方法(如 continuation writing)叠加获得进一步收益。

实验

表 1:VoiceBench 主要结果

模型 AlpacaEval (S/T) CommonEval (S/T) OpenBookQA (S/T) AdvBench RR (S/T)
Qwen2-Audio 3.74/4.11 3.43/3.77 49.45/67.91 96.73/96.73
DIVA 3.67/4.68 3.54/4.29 25.49/76.70 98.27/99.23
InSerter 4.23/4.39 3.63/4.05 77.14/83.52 97.69/97.50
  • InSerter 在语音输入下 AlpacaEval 得分 4.23(最优),OpenBookQA 准确率 77.14%,大幅超越 Qwen2-Audio(49.45%)。
  • 语音输入与文本输入的差距从基线的 23.3% 缩小至仅 1.3%。

表 2:SpeechInstructBench 结果(英文 Closed-Ended)

模型 Standard (P/I) Background (P/I) Accent (P/I) Disfluency (P/I)
DIVA 27.64/37.26 26.32/36.69 26.49/36.26 19.16/27.89
Qwen2-Audio 19.82/30.18 18.17/28.82 18.59/28.81 15.19/24.67
InSerter 39.75/51.35 37.56/49.87 37.34/48.24 36.38/47.28
  • InSerter 在所有条件下均大幅领先,标准条件下 prompt-level 准确率 39.75%(vs DIVA 27.64%),提升约 12 个百分点。
  • 在噪声干扰、口音变化、语流不畅等困难场景下保持鲁棒。

关键发现

  1. 词级交错优于句级:词级粒度更细,与文本续写目标更契合(47.38% vs 42.98% I-Acc)。
  2. 可叠加性:InSerter + continuation writing 后训练可获额外收益(51.35% vs 47.38%)。
  3. 数据规模正收益:交错数据从 0 扩展到 300K 小时持续带来性能提升,具备良好可扩展性。
  4. 中英文双语 SOTA:在 SpeechInstructBench 中文子集上同样取得最优结果。

亮点

  • 概念简洁且可扩展:仅需 TTS 将文本语料转为交错序列即可大规模生产训练数据,无需精心设计配对数据。
  • 预训练阶段切入:从预训练(而非后训练)阶段引入语音-文本对齐,更高效地让语音继承文本智能。
  • SpeechInstructBench:首个系统性语音指令遵循基准,覆盖口音、噪声、情感、语流不畅等真实场景,填补评测空白。
  • 训练效率高:交错格式使一个样本中可同时对齐多段语音-文本关系,相比行为对齐方法效率更高。

局限

  • 仅覆盖中英文,对其他语言的泛化能力未验证。
  • Open-ended 和 Adjustment 子任务评测依赖 GPT-4o API 评分,客观性和可复现性受限。
  • 依赖 CosyVoice 2.0 合成语音,合成语音与真实语音存在分布差异(尽管论文未讨论此问题)。
  • SFT 阶段仅用 20K 样本,数据规模较小,可能限制对话多样性。

相关工作

  • SpeechLLM:分为离散 token 路线(Moshi, AudioPaLM)和连续表征路线(Qwen-Audio, DIVA),InSerter 属于后者。
  • 语音指令对齐:BLSP(行为对齐,continuation writing)、DIVA(表征对齐 + 蒸馏),InSerter 从预训练阶段切入。
  • 交错预训练:Spirit-LM 等用交错数据提升语音生成质量,InSerter 则聚焦指令遵循。
  • 评测基准:VoiceBench、ADU-bench 评估通用能力,SpeechInstructBench 专注指令遵循。

评分

  • 新颖性: ⭐⭐⭐⭐ — 交错预训练思路在连续语音表征模型上的首次系统应用,数据构造简洁优雅
  • 有效性: ⭐⭐⭐⭐ — 多个 benchmark 上大幅超越基线,消融充分,可扩展性得到验证
  • 实用价值: ⭐⭐⭐⭐ — 方法简单通用,对任何连续表征 SpeechLLM 可直接适用
  • 清晰度: ⭐⭐⭐⭐ — 论文结构清晰,图表丰富,消融实验设计合理