InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training¶
会议: ACL 2025
arXiv: 2503.02769
代码: SpeechInstructBench
领域: LLM/NLP
关键词: SpeechLLM, 语音指令遵循, 交错预训练, 语音-文本对齐, Benchmark
一句话总结¶
提出 InSerter(交错语音-文本预训练)方法,通过 TTS 将大规模文本语料合成为交错的语音-文本序列进行预训练,大幅提升 SpeechLLM 的语音指令遵循能力,并构建首个全面的语音指令遵循基准 SpeechInstructBench。
研究背景与动机¶
- 语音指令遵循的语义鸿沟:当前 SpeechLLM 处理语音输入时,智能水平显著低于处理文本输入,语音-文本模态间的语义不一致是核心瓶颈。
- 表征对齐的局限:直接对齐连续语音帧与离散文本 token 的表征会损失语调、能量、音高等关键声学特征,因为两者粒度天然不匹配。
- 行为对齐的扩展性差:通过后训练阶段让模型对语音/文本输入产生一致输出的方法,依赖高质量配对数据,数据构造复杂且难以大规模扩展。
- 缺乏专用评测:现有 Benchmark(如 VoiceBench)主要评估通用对话能力,缺少对语音指令遵循(含口音、噪声、语流不畅等)的系统性评测。
- 预训练阶段的启发:文本智能的涌现来自预训练阶段的无监督 next-token prediction,作者希望将这一机制迁移到语音模态。
- 训练效率低:已有行为对齐方法每个样本仅优化一条语音序列的文本续写,InSerter 通过交错格式实现多段对齐,显著提升训练效率。
方法详解¶
整体框架¶
InSerter 采用两阶段训练:(1)在预训练阶段引入大规模交错语音-文本数据,通过 next-token prediction 让语音表征继承文本的认知能力;(2)SFT 阶段使用对话数据增强交互性能。基座模型为 Qwen2-Audio-7B(Whisper-Large-v3 编码器 + Q-Former 适配器 + LLM)。
模块一:交错数据构造¶
三阶段流水线: - 文本语料收集与预处理:汇聚大规模长文本和对话数据,正则清洗后得到约 6100 亿 token 的文本语料。 - 片段采样:在文本中随机选取片段转为语音,支持两种粒度——词级采样(随机选词,最少 5 词保证语义完整)和句级采样(以标点为界随机选句)。 - TTS 转换:使用 CosyVoice 2.0 模型配合 10,000 种不同音色 prompt 合成语音,最终生成 301,540 小时的语音数据,与剩余文本拼接形成交错序列。
模块二:交错预训练(Stage 1)¶
- 输入为交错的语音片段(经 speech encoder + adapter 编码为连续表征)与文本片段。
- 训练目标为标准交叉熵损失,仅在文本 token 上计算 loss,语音段 token 被 mask 掉。
- 数据配比:40% 交错数据 + 30% 多任务语音数据 + 30% 纯文本数据。
- 超参:batch size 1024,序列长度 8192,训练 1 epoch。
模块三:SFT 微调(Stage 2)¶
- 使用对话数据进行监督微调,混入 50% 文本数据,共 20K 样本。
- 训练 7000 iterations(消融实验确定最优步数),学习率 1e-5,Adam 优化器。
训练细节¶
- 词级交错最优语音片段占比约 30%,句级约 40%。
- 交错数据在预训练数据中的最优占比为 40%。
- InSerter 可与后训练对齐方法(如 continuation writing)叠加获得进一步收益。
实验¶
表 1:VoiceBench 主要结果¶
| 模型 | AlpacaEval (S/T) | CommonEval (S/T) | OpenBookQA (S/T) | AdvBench RR (S/T) |
|---|---|---|---|---|
| Qwen2-Audio | 3.74/4.11 | 3.43/3.77 | 49.45/67.91 | 96.73/96.73 |
| DIVA | 3.67/4.68 | 3.54/4.29 | 25.49/76.70 | 98.27/99.23 |
| InSerter | 4.23/4.39 | 3.63/4.05 | 77.14/83.52 | 97.69/97.50 |
- InSerter 在语音输入下 AlpacaEval 得分 4.23(最优),OpenBookQA 准确率 77.14%,大幅超越 Qwen2-Audio(49.45%)。
- 语音输入与文本输入的差距从基线的 23.3% 缩小至仅 1.3%。
表 2:SpeechInstructBench 结果(英文 Closed-Ended)¶
| 模型 | Standard (P/I) | Background (P/I) | Accent (P/I) | Disfluency (P/I) |
|---|---|---|---|---|
| DIVA | 27.64/37.26 | 26.32/36.69 | 26.49/36.26 | 19.16/27.89 |
| Qwen2-Audio | 19.82/30.18 | 18.17/28.82 | 18.59/28.81 | 15.19/24.67 |
| InSerter | 39.75/51.35 | 37.56/49.87 | 37.34/48.24 | 36.38/47.28 |
- InSerter 在所有条件下均大幅领先,标准条件下 prompt-level 准确率 39.75%(vs DIVA 27.64%),提升约 12 个百分点。
- 在噪声干扰、口音变化、语流不畅等困难场景下保持鲁棒。
关键发现¶
- 词级交错优于句级:词级粒度更细,与文本续写目标更契合(47.38% vs 42.98% I-Acc)。
- 可叠加性:InSerter + continuation writing 后训练可获额外收益(51.35% vs 47.38%)。
- 数据规模正收益:交错数据从 0 扩展到 300K 小时持续带来性能提升,具备良好可扩展性。
- 中英文双语 SOTA:在 SpeechInstructBench 中文子集上同样取得最优结果。
亮点¶
- 概念简洁且可扩展:仅需 TTS 将文本语料转为交错序列即可大规模生产训练数据,无需精心设计配对数据。
- 预训练阶段切入:从预训练(而非后训练)阶段引入语音-文本对齐,更高效地让语音继承文本智能。
- SpeechInstructBench:首个系统性语音指令遵循基准,覆盖口音、噪声、情感、语流不畅等真实场景,填补评测空白。
- 训练效率高:交错格式使一个样本中可同时对齐多段语音-文本关系,相比行为对齐方法效率更高。
局限¶
- 仅覆盖中英文,对其他语言的泛化能力未验证。
- Open-ended 和 Adjustment 子任务评测依赖 GPT-4o API 评分,客观性和可复现性受限。
- 依赖 CosyVoice 2.0 合成语音,合成语音与真实语音存在分布差异(尽管论文未讨论此问题)。
- SFT 阶段仅用 20K 样本,数据规模较小,可能限制对话多样性。
相关工作¶
- SpeechLLM:分为离散 token 路线(Moshi, AudioPaLM)和连续表征路线(Qwen-Audio, DIVA),InSerter 属于后者。
- 语音指令对齐:BLSP(行为对齐,continuation writing)、DIVA(表征对齐 + 蒸馏),InSerter 从预训练阶段切入。
- 交错预训练:Spirit-LM 等用交错数据提升语音生成质量,InSerter 则聚焦指令遵循。
- 评测基准:VoiceBench、ADU-bench 评估通用能力,SpeechInstructBench 专注指令遵循。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 交错预训练思路在连续语音表征模型上的首次系统应用,数据构造简洁优雅
- 有效性: ⭐⭐⭐⭐ — 多个 benchmark 上大幅超越基线,消融充分,可扩展性得到验证
- 实用价值: ⭐⭐⭐⭐ — 方法简单通用,对任何连续表征 SpeechLLM 可直接适用
- 清晰度: ⭐⭐⭐⭐ — 论文结构清晰,图表丰富,消融实验设计合理