跳转至

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

会议: ICLR 2026
arXiv: 2601.15668
代码:
领域: 音频语音
关键词: 语音情感识别, 可解释推理, 强化学习, 韵律感知, Chain-of-Thought

一句话总结

首次将语音情感识别(SER)重构为深度推理问题,通过韵律增强基座模型 + GRPO-PTR(渐进式可信推理奖励)强化学习,生成带有声学依据的可解释情感推理。

研究背景与动机

  • 当前 SpeechLLM 仍将情感识别视为简单分类问题,给出标签但不解释"为什么"
  • 现有基于 SFT 的描述型方法只停留在声学特征描述层面,缺乏从声学观察到情感判断的因果推理链
  • 三大挑战:
  • 缺乏高质量推理数据集,现有情感语料无细粒度声学标注
  • SpeechLLM 韵律感知能力弱(音高/能量/语速/重音感知力不足)
  • 标准 RL 仅用规则奖励(结果准确性),无法监督开放式推理质量

方法详解

整体框架

三阶段训练流程: 1. 数据构建:构建 EmotionCoT-35K 韵律感知 CoT 推理数据集 2. 韵律增强 SFT:在 Qwen2.5-Omni-7B 上训练韵律感知基座模型 EmotionThinker-Base 3. GRPO-PTR 强化学习:渐进式引入可信推理奖励,精炼推理质量

关键设计

EmotionCoT-35K 数据集构建: - 35K 对音频-推理对,约 200 小时,9 类情感标签(Neutral/Happy/Sad/Angry/Contempt/Confused/Whisper/Surprise/Fear) - 来源:IEMOCAP、MELD、Expresso、MEAD、EARS - 自动标注流水线提取: - 底层特征:语速、音高、能量(标准语音工具) - 重音词:WhiStress 从转录中识别 - 语调轮廓:帧级音高-能量轨迹经 Savitzky-Golay 平滑,分类为粗粒度风格(表现型/平坦型)和细粒度模式(升/降/升降/降升) - 说话者属性:wav2vec2.0 分类器(性别、年龄组) - 所有韵律标注作为上下文 prompt 输入 GPT-4o 生成逐步推理轨迹 - 首个韵律感知 CoT 数据集,覆盖维度远超现有语音描述数据集

韵律增强 SFT(EmotionThinker-Base): - 约 500 小时韵律增强数据,包含四类任务: 1. 词级重音感知(Stress-17K 数据集) 2. 韵律属性分类(音高/能量/语速/语调级别) 3. 比较性韵律增强(同一话语修改不同韵律参数后拼接,训练模型识别正确排序) 4. 5K EmotionCoT 样本冷启动推理 - 联合优化音频编码器、音频适配器和 LLM 骨干

GRPO-PTR:渐进式可信推理奖励

三类奖励信号: 1. 格式奖励 R_f:输出是否遵循 think/answer XML 格式,0/1 二值 2. 结果准确度奖励 R_o:预测标签是否匹配真实标签,0/1 二值 3. 推理质量奖励 R_t:基于训练好的奖励模型(Qwen2.5-Omni-3B 微调于 101.4K 样本),从四个维度评分(1-5 分): - 事实对齐(factual_alignment) - 解释质量(interpretative_quality) - 描述完整性(caption_completeness) - 流畅与结构清晰度(fluency_and_structural_clarity)

可信度权重 τ: - 将采样回复按结果正确/错误分为两组,计算各组推理奖励均值 - 当正确组推理奖励 ≥ 错误组时 τ=1;否则 τ=exp(差值),指数衰减抑制 - 作为组级对齐门控,防止"高推理分+错误答案"的 reward hacking - 本质上只有当推理质量与结果正确性在组级别一致时,才信任推理奖励信号

渐进式调度: - 早期仅用 R_o + R_f 训练至情感准确率稳定达到约 50% - 之后才引入 R_t,避免多个不稳定奖励信号在早期干扰收敛

损失函数 / 训练策略

  • 最终奖励:R_i = 0.3R_f + 1.0R_o + 0.5τR_t
  • KL 散度系数 0.04,学习率 1e-6,每输入采样 K=8 个候选
  • RL 训练 3000 步,基于 Qwen2.5-Omni-7B

实验关键数据

主实验

模型 IEMOCAP MELD RAVDESS SAVEE Avg Acc 推理质量 Avg
Kimi-Audio 57.72 59.13 61.07 55.21 58.83 2.72
BLSP-Emo 76.00 57.30 72.00 63.73 65.41 2.73
Qwen2.5-Omni-7B 45.70 54.64 64.77 52.49 50.83 2.87
MiniCPM-O 35.54 52.78 40.93 35.47 43.60 3.01
EmotionThinker 77.68 59.71 71.56 73.96 68.89 3.98

EmotionThinker 在 16 个开源模型中情感准确率最高(68.89%),推理质量大幅领先(3.98 vs 次优 3.04)。

韵律感知测试 音高 语速 能量 语调 重音
Qwen2.5-Omni-7B 25.71 29.94 27.67 25.83 30.24
EmotionThinker-Base 75.11 68.70 69.42 60.25 71.50

消融实验

变体 SER Acc 推理质量
Qwen2.5-Omni-7B (Baseline 1) 50.83 2.87
EmotionThinker-Base (Baseline 2) 52.63 3.41
SFT (V1) 53.91 3.78
GRPO (V2) 62.91 3.45
GRPO-PTR w/o 训练 RM (V3) 66.67 3.36
GRPO-PTR w/o 可信度权重 (V4) 67.71 3.74
GRPO-PTR w/o 渐进调度 (V5) 62.80 3.76
GRPO-PTR 完整 (V6) 68.89 3.98

关键发现

  1. SFT 提升推理质量但准确率有限;GRPO 大幅提升准确率但推理质量一般;GRPO-PTR 两者兼顾
  2. 未训练的奖励模型引入噪声(V3 vs V6),训练奖励模型至关重要
  3. 去除可信度权重(V4)对准确率影响小但推理质量下降,说明 τ 主要防止逻辑错误的推理
  4. 取消渐进调度(V5)导致准确率大幅下降至 62.80%,凸显多信号 RL 的稳定性挑战
  5. K 值从 4 到 16 对结果影响有限,选 K=8 做效率-性能折中

亮点与洞察

  • 首创将 SER 从分类问题重构为 RL 驱动的深度推理问题
  • 韵律增强 SFT 是关键前置步骤:没有韵律感知能力,推理无法基于真实声学线索
  • GRPO-PTR 中的可信度权重 τ 设计精巧,组级对齐机制有效防止 reward hacking
  • 四维推理质量评估体系可迁移到其他模态的推理质量评估
  • 人工评估与 GPT 自动评估排序一致,验证了评估方案的可靠性

局限性 / 可改进方向

  • 奖励模型仅用 3B 模型微调,可能存在评估偏差
  • 九类情感标签可能不够细粒度(如 sarcasm、混合情感)
  • 仅在英文数据集上验证,跨语言泛化能力未知
  • 推理生成增加推理延迟,实时应用受限

相关工作与启发

  • 与 DeepSeek-R1 思路一致(RL 激励推理),但扩展到语音模态并针对情感任务定制 PTR
  • 比 SECap、OSUM-EChat 等描述型方法更进一步,建立了声学特征到情感推断的因果链
  • 韵律增强 SFT 策略(尤其比较性增强任务)可推广到其他语音理解任务

评分

  • 新颖性: 5/5 (首次 RL 驱动的可解释语音情感推理,PTR 策略原创性强)
  • 实验充分度: 4/5 (四个 benchmark、16 个 baseline、人工评估、详尽消融)
  • 写作质量: 4/5 (模块化清晰,公式表述严谨)
  • 价值: 5/5 (开辟语音情感推理新范式,方法论可迁移)