VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation¶

会议: ICLR 2026
arXiv: 2602.06270
代码: 无
领域: 语音情感识别
关键词: 语音情感识别, 韵律特征, 元音级, LLM推理, GRPO

一句话总结¶

提出 VowelPrompt，基于语音学证据提取元音级韵律描述符（音高/能量/时长），转为自然语言增强 LLM 的情感识别 prompt，配合 SFT+GRPO 两阶段训练，在零样本/微调/跨域/跨语言条件下一致超越 SOTA，同时生成可解释的情感推理。

研究背景与动机¶

领域现状：语音情感识别（SER）经历了 openSMILE 手工特征 → wav2vec/HuBERT 深度自监督特征 → LLM 基于文本 prompt 做情感识别的三代演进。当前两条技术路线并存：Audio LLM（如 Qwen2-Audio）直接处理音频嵌入但不透明；Text-only prompting（如 SpeechCueLLM）用自然语言描述韵律但粒度粗（"说话声很大"）。

现有痛点：深度特征不可解释，无法告诉用户"为什么判断为愤怒"；文本 prompt 方法用句子级韵律描述（如"高音、快语速"），丢失了逐音节的细粒度韵律变化——而情感往往集中表达在特定的重读音节上。

核心矛盾：如何在保持可解释性的同时达到甚至超越不透明深度特征的性能？

语音学依据：元音是情感韵律的主要载体——它们是浊音、声学稳定（有清晰的 F0 和共振峰），且在时间和能量上占据话语的主体部分。相比之下，辅音的韵律贡献较小。

核心 idea：提取元音级（逐音素）韵律特征描述符，转为自然语言嵌入 prompt，让 LLM 在词汇语义和局部韵律信息上联合推理。

方法详解¶

整体框架¶

语音 + 转录文本 → MFA 强制对齐 → 元音段提取 → 6 种 LLD 计算 → 说话人/元音类型归一化 → 分位数离散化 → 自然语言韵律描述 → 拼接到转录文本后 → LLM 联合推理情感。训练采用 SFT（GPT-4o 生成推理 trace）→ GRPO 强化学习两阶段。

关键设计¶

元音级特征提取：
- 强制对齐（MFA）获取音素级时间边界 → 按 IPA 元音集筛选元音段
- 6 个 LLD：音高均值、音高斜率、音高方差、能量均值、能量方差、时长
- 两阶段归一化：说话人级 z-score → 元音类型级归一化
- 分位数离散化（K 级，如"非常低/低/中/高/非常高"）→ 自然语言描述
- 设计动机：元音是情感韵律的主要载体（声学稳定、voicing 持续），比全音素或句子级特征更精准地定位情感线索
两阶段 LLM 适配：
- SFT 阶段：小量训练数据 + GPT-4o 生成的推理 trace（含对韵律特征的引用），CE loss 微调 LLM
- GRPO 阶段：\(R = R_{acc} + R_{format}\)，准确率奖励（精确匹配）+ 格式奖励（\<think>/\<answer> 标签完整性），KL 约束防止偏离 SFT 参考
- 设计动机：SFT 做冷启动对齐，GRPO 进一步提升推理质量和输出格式遵从
多语言扩展：
- MFA 支持 20+ 语言 → IPA 统一元音表示 → 语言级归一化
- 使用英语描述元音韵律特征（即使输入是法语/德语），利用多语言 LLM 的跨语言能力

损失函数 / 训练策略¶

SFT: 标准 CE loss。GRPO: 组内相对优势 + KL 正则，accuracy 和 format 两项可验证奖励。

实验关键数据¶

主实验¶

数据集	条件	VowelPrompt	之前SOTA	提升
IEMOCAP	微调	72.8% WA	68.5%	+4.3%
MELD	零样本	52.1% WA	46.3%	+5.8%
CaFE (法语)	跨语言	62.4%	54.1%	+8.3%
EmoDB (德语)	跨语言	78.9%	71.2%	+7.7%

消融实验¶

配置	IEMOCAP WA	说明
VowelPrompt 完整	72.8%	full
w/o 韵律描述符	65.3%	仅文本
w/o GRPO	70.1%	仅 SFT
辅音级特征	68.7%	元音 > 辅音
随机打乱韵律	58.2%	确认非伪相关

关键发现¶

元音级韵律比句子级粗粒度描述显著更好（IEMOCAP zero-shot: +1.2% UACC over SpeechCueLLM）
GRPO 阶段提升 +2.7% WA，主要改善格式遵从和跨域泛化
反事实实验（打乱韵律描述顺序、置换韵律到错误元音）确认模型真的在用韵律信息而非伪相关
元音级特征优于辅音级特征（消融对比），且两者组合无显著提升——说明元音已捕获主要情感线索
跨语言泛化：从英语微调的模型在法语 CaFE（+8.3%）和德语 EmoDB（+7.7%）上均有效
匹配边缘分布的安慰剂实验排除了统计假象——随机韵律描述性能降至随机水平
人工评估：推理 trace 中的韵律引用被标注者评为"语言学合理"的比例 >85%

亮点与洞察¶

可解释的情感推理：LLM 输出的 \ 推理 trace 明确引用了哪个元音的哪个韵律特征导致了判断——人工评估认为 >85% 的推理在语言学上合理
text-only 部署：推理时只需转录+韵律描述文本，无需音频编码器在 GPU 上运行——大幅降低部署复杂度
GRPO 的价值：不仅提升准确率，更关键的是保证输出格式一致性（\<think>/\<answer> 标签）——这对生产环境至关重要
元音作为情感锚点的语言学假设被实验充分验证——元音级 > 辅音级 > 句子级
无需音频编码器的部署优势：推理时仅需文本 LLM，韵律信息以文本形式传入，大幅简化部署架构

局限与展望¶

依赖强制对齐质量——MFA 在嘈杂环境或非标准语音中的对齐精度会下降
韵律描述从音频提取，推理时仍需音频输入（虽然 LLM 推理本身是 text-only，但前处理需要音频）
仅测试了 IEMOCAP、MELD 等少数 SER 基准，更多领域（如客服、心理健康）待验证
元音级特征在声调语言（如中文）中的表现未探索——声调与情感的交互可能更复杂
GRPO 的超参数（如 KL 系数）对跨域泛化的影响需要系统性消融

评分¶

新颖性: ⭐⭐⭐⭐⭐ 元音级韵律+LLM 推理的巧妙结合，语言学动机明确
实验充分度: ⭐⭐⭐⭐⭐ 5 数据集+15 个消融/反事实实验，覆盖零样本/微调/跨域/跨语言
写作质量: ⭐⭐⭐⭐ 详细全面但篇幅略长
价值: ⭐⭐⭐⭐⭐ 可解释+高性能+跨语言，对 SER 领域有实质推动