InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training¶

会议: ACL 2025
arXiv: 2503.02769
代码: SpeechInstructBench
领域: LLM/NLP
关键词: SpeechLLM, 语音指令遵循, 交错预训练, 语音-文本对齐, Benchmark

一句话总结¶

提出 InSerter（交错语音-文本预训练）方法，通过 TTS 将大规模文本语料合成为交错的语音-文本序列进行预训练，大幅提升 SpeechLLM 的语音指令遵循能力，并构建首个全面的语音指令遵循基准 SpeechInstructBench。

研究背景与动机¶

语音指令遵循的语义鸿沟：当前 SpeechLLM 处理语音输入时，智能水平显著低于处理文本输入，语音-文本模态间的语义不一致是核心瓶颈。
表征对齐的局限：直接对齐连续语音帧与离散文本 token 的表征会损失语调、能量、音高等关键声学特征，因为两者粒度天然不匹配。
行为对齐的扩展性差：通过后训练阶段让模型对语音/文本输入产生一致输出的方法，依赖高质量配对数据，数据构造复杂且难以大规模扩展。
缺乏专用评测：现有 Benchmark（如 VoiceBench）主要评估通用对话能力，缺少对语音指令遵循（含口音、噪声、语流不畅等）的系统性评测。
预训练阶段的启发：文本智能的涌现来自预训练阶段的无监督 next-token prediction，作者希望将这一机制迁移到语音模态。
训练效率低：已有行为对齐方法每个样本仅优化一条语音序列的文本续写，InSerter 通过交错格式实现多段对齐，显著提升训练效率。

方法详解¶

整体框架¶

InSerter 采用两阶段训练：（1）在预训练阶段引入大规模交错语音-文本数据，通过 next-token prediction 让语音表征继承文本的认知能力；（2）SFT 阶段使用对话数据增强交互性能。基座模型为 Qwen2-Audio-7B（Whisper-Large-v3 编码器 + Q-Former 适配器 + LLM）。

模块一：交错数据构造¶

三阶段流水线： - 文本语料收集与预处理：汇聚大规模长文本和对话数据，正则清洗后得到约 6100 亿 token 的文本语料。 - 片段采样：在文本中随机选取片段转为语音，支持两种粒度——词级采样（随机选词，最少 5 词保证语义完整）和句级采样（以标点为界随机选句）。 - TTS 转换：使用 CosyVoice 2.0 模型配合 10,000 种不同音色 prompt 合成语音，最终生成 301,540 小时的语音数据，与剩余文本拼接形成交错序列。

模块二：交错预训练（Stage 1）¶

输入为交错的语音片段（经 speech encoder + adapter 编码为连续表征）与文本片段。
训练目标为标准交叉熵损失，仅在文本 token 上计算 loss，语音段 token 被 mask 掉。
数据配比：40% 交错数据 + 30% 多任务语音数据 + 30% 纯文本数据。
超参：batch size 1024，序列长度 8192，训练 1 epoch。

模块三：SFT 微调（Stage 2）¶

使用对话数据进行监督微调，混入 50% 文本数据，共 20K 样本。
训练 7000 iterations（消融实验确定最优步数），学习率 1e-5，Adam 优化器。

训练细节¶

词级交错最优语音片段占比约 30%，句级约 40%。
交错数据在预训练数据中的最优占比为 40%。
InSerter 可与后训练对齐方法（如 continuation writing）叠加获得进一步收益。

实验¶

表 1：VoiceBench 主要结果¶

模型	AlpacaEval (S/T)	CommonEval (S/T)	OpenBookQA (S/T)	AdvBench RR (S/T)
Qwen2-Audio	3.74/4.11	3.43/3.77	49.45/67.91	96.73/96.73
DIVA	3.67/4.68	3.54/4.29	25.49/76.70	98.27/99.23
InSerter	4.23/4.39	3.63/4.05	77.14/83.52	97.69/97.50

InSerter 在语音输入下 AlpacaEval 得分 4.23（最优），OpenBookQA 准确率 77.14%，大幅超越 Qwen2-Audio（49.45%）。
语音输入与文本输入的差距从基线的 23.3% 缩小至仅 1.3%。

表 2：SpeechInstructBench 结果（英文 Closed-Ended）¶

模型	Standard (P/I)	Background (P/I)	Accent (P/I)	Disfluency (P/I)
DIVA	27.64/37.26	26.32/36.69	26.49/36.26	19.16/27.89
Qwen2-Audio	19.82/30.18	18.17/28.82	18.59/28.81	15.19/24.67
InSerter	39.75/51.35	37.56/49.87	37.34/48.24	36.38/47.28

InSerter 在所有条件下均大幅领先，标准条件下 prompt-level 准确率 39.75%（vs DIVA 27.64%），提升约 12 个百分点。
在噪声干扰、口音变化、语流不畅等困难场景下保持鲁棒。

关键发现¶

词级交错优于句级：词级粒度更细，与文本续写目标更契合（47.38% vs 42.98% I-Acc）。
可叠加性：InSerter + continuation writing 后训练可获额外收益（51.35% vs 47.38%）。
数据规模正收益：交错数据从 0 扩展到 300K 小时持续带来性能提升，具备良好可扩展性。
中英文双语 SOTA：在 SpeechInstructBench 中文子集上同样取得最优结果。

亮点¶

概念简洁且可扩展：仅需 TTS 将文本语料转为交错序列即可大规模生产训练数据，无需精心设计配对数据。
预训练阶段切入：从预训练（而非后训练）阶段引入语音-文本对齐，更高效地让语音继承文本智能。
SpeechInstructBench：首个系统性语音指令遵循基准，覆盖口音、噪声、情感、语流不畅等真实场景，填补评测空白。
训练效率高：交错格式使一个样本中可同时对齐多段语音-文本关系，相比行为对齐方法效率更高。

局限¶

仅覆盖中英文，对其他语言的泛化能力未验证。
Open-ended 和 Adjustment 子任务评测依赖 GPT-4o API 评分，客观性和可复现性受限。
依赖 CosyVoice 2.0 合成语音，合成语音与真实语音存在分布差异（尽管论文未讨论此问题）。
SFT 阶段仅用 20K 样本，数据规模较小，可能限制对话多样性。

评分¶

新颖性: ⭐⭐⭐⭐ — 交错预训练思路在连续语音表征模型上的首次系统应用，数据构造简洁优雅
有效性: ⭐⭐⭐⭐ — 多个 benchmark 上大幅超越基线，消融充分，可扩展性得到验证
实用价值: ⭐⭐⭐⭐ — 方法简单通用，对任何连续表征 SpeechLLM 可直接适用
清晰度: ⭐⭐⭐⭐ — 论文结构清晰，图表丰富，消融实验设计合理