DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling¶

会议: AAAI 2026
arXiv: 2508.08961
代码: https://github.com/lavendery/UUG
领域: Audio & Speech / 语音大模型
关键词: 语音大模型, 双token建模, 语音理解与生成, 语音分词器, 统一框架

一句话总结¶

提出 DualSpeechLM 框架，通过理解驱动语音分词器（USTokenizer）提取高层语义 token 作为 LLM 输入、声学 token 作为输出，在一个端到端框架中同时优化语音理解和生成能力。

研究背景与动机¶

领域现状：近年来基于文本 LLM 扩展的语音大模型（Speech LLM）蓬勃发展，包括理解类（QwenAudio、SALMONN）和生成类（SEED-TTS、UniAudio）。统一理解与生成的工作（SpeechGPT、Moshi、Mini-Omni2）也在探索中。
现有痛点：
数据依赖：由于语音和文本之间的巨大模态鸿沟，将文本 LLM 适配为统一语音 LLM 需要大量配对数据（SpeechGPT 需 70K 小时，SpiritLM 需 570K 小时）
任务矛盾：生成任务需要丰富的声学细节（韵律、情感、说话人特征），理解任务需要高层语义特征。使用同一种 token 难以兼顾两者——用声学 token 理解差，用语义 token 生成差
核心矛盾：单一 token 类型无法满足理解（偏语义）和生成（偏声学）的不同信息需求，提升一方往往损害另一方。
本文要解决什么？ 在小规模数据下，实现语音理解和生成的相互增益而非相互冲突。
切入角度：从语音分词（tokenization）和语言建模（language modeling）两个维度分别提出创新——设计面向理解的分词器和双 token 建模框架。
核心idea一句话：输入用高层语义 token（USToken）降低模态对齐难度并增强理解，输出用声学 token 保留声学细节确保高质量生成，二者在统一端到端框架中联合训练。

方法详解¶

整体框架¶

DualSpeechLM 包含两个核心模块：

USTokenizer：从语音中提取与文本 LLM 语义空间对齐的理解驱动 token
DualSpeechLM 主框架：以 USToken 为输入、声学 token 为输出的双 token LLM

关键设计¶

理解驱动语音分词器（USTokenizer）：
架构：预训练 Whisper 编码器 → 下采样 Encoder → 向量量化（VQ，单 codebook）→ 上采样 Decoder
关键创新：增加 Adapter 模块将 VQ 量化向量投影到冻结文本 LLM 的输入空间，通过理解任务的反向传播来优化 token 的语义内容
训练损失：\(\mathcal{L}_{\text{USTokenizer}} = \alpha \cdot \mathcal{L}_{\text{commit}} + \beta \cdot \mathcal{L}_{\text{Under}} + \gamma \cdot \mathcal{L}_{\text{reconstruction}}\)
其中理解损失 \(\mathcal{L}_{\text{Under}}\) 是文本 LLM 在语音输入上的自回归生成似然。这样 token 的优化直接受文本 LLM 语义空间的指导
与之前基于 SSL 量化（HuBERT）或 ASR 中间层量化（CosyVoice）的语义分词器不同，USTokenizer 显式与文本 LLM 的语义能力对齐，从而显著降低模态对齐难度
双 token 建模架构：
输入侧：USToken 提供高层语义信息，直接进入文本 LLM
输出侧：不直接输出 USToken（因缺少声学细节），而是通过 AcousticGPT 模块将 LLM 的隐状态转换为声学 token
AcousticGPT 集成在文本 LLM 内部联合训练，形成端到端流水线
理解路径：语音 → USToken → LLM → 文本输出
生成路径：(提示 + USToken) → LLM 预测目标 USToken → AcousticGPT 产生声学 token → 波形
语义监督损失（Semantic Supervision Loss）：
在生成路径中增加对中间 USToken 预测的监督，确保 LLM 不会"遗忘"语义信息
作为正则化手段，稳定双 token 联合训练
条件链策略（Chain-of-Condition, CoC）：
在生成任务中，不直接从输入 USToken 一步生成声学 token，而是先让 LLM 逐步生成目标 USToken，再基于此生成声学 token
类似 Chain-of-Thought 的思路但用于语音生成，提供更稳定的中间条件

损失函数 / 训练策略¶

USTokenizer：commitment loss + 理解损失 + 重建损失
DualSpeechLM：理解分支使用交叉熵，生成分支使用声学 token 预测损失 + 语义监督损失
仅使用 4.5K 小时训练数据（对比 SpiritLM 的 570K 小时）
基于 Phi3.5-3B，采用 LoRA 微调而非全参数微调

实验关键数据¶

主实验¶

理解能力（WER↓ 越低越好）：

模型	LLM	训练数据	ASR-Clean	ASR-Other	SQA (b4↑/gs↑)
SpeechGPT	LLaMA-7B	70K hrs	42.73	78.54	3.58/40
SpiritLM	LLaMA-7B	570K hrs	6.0	11.0	—
Baseline-Acoustic	Phi3.5-3B	4.5K hrs	36.52	80.06	17.68/76
Baseline-Semantic	Phi3.5-3B	4.5K hrs	5.70	14.32	42.01/85
DualSpeechLM (USToken)	Phi3.5-3B	4.5K hrs	4.22	9.71	44.38/88

生成能力（TTS，SIM↑/WER↓/DNSMOS↑）：

模型	Clean	Other
Baseline-Acoustic	0.88/22.11/3.76	0.87/26.38/3.69
Baseline-Semantic	0.80/21.72/3.29	0.81/22.32/3.26
DualSpeechLM (USToken)	0.90/9.25/3.86	0.88/9.88/3.82

消融实验¶

数据比例实验（核心发现）： - Baseline 模型：增加生成数据会恶化理解性能，增加理解数据会恶化生成性能（任务冲突） - DualSpeechLM：增加任一方面的数据都能同时改善两方面的性能（相互增益）

Token 类型对比： - DualSpeechLM + HuBERT token：理解和生成都有改善但有限 - DualSpeechLM + USToken：理解和生成均大幅提升，验证 USToken 的核心贡献

关键发现¶

仅用 4.5K 小时数据就超越了使用 570K 小时数据的 SpiritLM，证明 USToken 显著降低了模态对齐的数据需求
双 token 设计成功打破了理解-生成的零和博弈，实现了正向互促
USToken 比 HuBERT token 在理解和生成上都显著更优

亮点与洞察¶

将"输入 token"和"输出 token"分离是一个简洁而深刻的设计洞察：理解和生成对信息粒度的需求本质上不同，用同一种 token 是不必要的约束
USTokenizer 通过文本 LLM 的理解能力反向指导语音 token 的学习，是一种巧妙的跨模态知识蒸馏
仅使用 1%（4.5K vs 570K）的数据就超越了之前的方法，数据效率提升惊人

局限性 / 可改进方向¶

基于 Phi3.5-3B（较小的 LLM），未在更大模型上验证
USTokenizer 仍依赖 Whisper 编码器的输出质量
声学 token 使用的是 WavTokenizer（单 codebook），多 codebook 方案可能进一步提升生成质量
仅评估了英文数据，多语言泛化能力未知
CoC 策略增加了推理延迟（需要先生成 USToken 再生成声学 token）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双 token 分离设计和理解驱动分词器都是清晰有力的创新
实验充分度: ⭐⭐⭐⭐ 理解+生成双向评估，数据比例消融说服力强
写作质量: ⭐⭐⭐⭐ 图示直观，思路递进清晰
价值: ⭐⭐⭐⭐⭐ 为统一语音大模型提供了一个优雅而高效的范式