EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning¶

会议: ICLR 2026
arXiv: 2601.15668
代码: 有
领域: 音频语音
关键词: 语音情感识别, 可解释推理, 强化学习, 韵律感知, Chain-of-Thought

一句话总结¶

首次将语音情感识别（SER）重构为深度推理问题，通过韵律增强基座模型 + GRPO-PTR（渐进式可信推理奖励）强化学习，生成带有声学依据的可解释情感推理。

研究背景与动机¶

当前 SpeechLLM 仍将情感识别视为简单分类问题，给出标签但不解释"为什么"
现有基于 SFT 的描述型方法只停留在声学特征描述层面，缺乏从声学观察到情感判断的因果推理链
三大挑战：
缺乏高质量推理数据集，现有情感语料无细粒度声学标注
SpeechLLM 韵律感知能力弱（音高/能量/语速/重音感知力不足）
标准 RL 仅用规则奖励（结果准确性），无法监督开放式推理质量

方法详解¶

整体框架¶

三阶段训练流程： 1. 数据构建：构建 EmotionCoT-35K 韵律感知 CoT 推理数据集 2. 韵律增强 SFT：在 Qwen2.5-Omni-7B 上训练韵律感知基座模型 EmotionThinker-Base 3. GRPO-PTR 强化学习：渐进式引入可信推理奖励，精炼推理质量

关键设计¶

EmotionCoT-35K 数据集构建： - 35K 对音频-推理对，约 200 小时，9 类情感标签（Neutral/Happy/Sad/Angry/Contempt/Confused/Whisper/Surprise/Fear） - 来源：IEMOCAP、MELD、Expresso、MEAD、EARS - 自动标注流水线提取： - 底层特征：语速、音高、能量（标准语音工具） - 重音词：WhiStress 从转录中识别 - 语调轮廓：帧级音高-能量轨迹经 Savitzky-Golay 平滑，分类为粗粒度风格（表现型/平坦型）和细粒度模式（升/降/升降/降升） - 说话者属性：wav2vec2.0 分类器（性别、年龄组） - 所有韵律标注作为上下文 prompt 输入 GPT-4o 生成逐步推理轨迹 - 首个韵律感知 CoT 数据集，覆盖维度远超现有语音描述数据集

韵律增强 SFT（EmotionThinker-Base）： - 约 500 小时韵律增强数据，包含四类任务： 1. 词级重音感知（Stress-17K 数据集） 2. 韵律属性分类（音高/能量/语速/语调级别） 3. 比较性韵律增强（同一话语修改不同韵律参数后拼接，训练模型识别正确排序） 4. 5K EmotionCoT 样本冷启动推理 - 联合优化音频编码器、音频适配器和 LLM 骨干

GRPO-PTR：渐进式可信推理奖励：

三类奖励信号： 1. 格式奖励 R_f：输出是否遵循 think/answer XML 格式，0/1 二值 2. 结果准确度奖励 R_o：预测标签是否匹配真实标签，0/1 二值 3. 推理质量奖励 R_t：基于训练好的奖励模型（Qwen2.5-Omni-3B 微调于 101.4K 样本），从四个维度评分（1-5 分）： - 事实对齐（factual_alignment） - 解释质量（interpretative_quality） - 描述完整性（caption_completeness） - 流畅与结构清晰度（fluency_and_structural_clarity）

可信度权重 τ： - 将采样回复按结果正确/错误分为两组，计算各组推理奖励均值 - 当正确组推理奖励 ≥ 错误组时 τ=1；否则 τ=exp(差值)，指数衰减抑制 - 作为组级对齐门控，防止"高推理分+错误答案"的 reward hacking - 本质上只有当推理质量与结果正确性在组级别一致时，才信任推理奖励信号

渐进式调度： - 早期仅用 R_o + R_f 训练至情感准确率稳定达到约 50% - 之后才引入 R_t，避免多个不稳定奖励信号在早期干扰收敛

损失函数 / 训练策略¶

最终奖励：R_i = 0.3R_f + 1.0R_o + 0.5τR_t
KL 散度系数 0.04，学习率 1e-6，每输入采样 K=8 个候选
RL 训练 3000 步，基于 Qwen2.5-Omni-7B

实验关键数据¶

主实验¶

模型	IEMOCAP	MELD	RAVDESS	SAVEE	Avg Acc	推理质量 Avg
Kimi-Audio	57.72	59.13	61.07	55.21	58.83	2.72
BLSP-Emo	76.00	57.30	72.00	63.73	65.41	2.73
Qwen2.5-Omni-7B	45.70	54.64	64.77	52.49	50.83	2.87
MiniCPM-O	35.54	52.78	40.93	35.47	43.60	3.01
EmotionThinker	77.68	59.71	71.56	73.96	68.89	3.98

EmotionThinker 在 16 个开源模型中情感准确率最高（68.89%），推理质量大幅领先（3.98 vs 次优 3.04）。

韵律感知测试	音高	语速	能量	语调	重音
Qwen2.5-Omni-7B	25.71	29.94	27.67	25.83	30.24
EmotionThinker-Base	75.11	68.70	69.42	60.25	71.50

消融实验¶

变体	SER Acc	推理质量
Qwen2.5-Omni-7B (Baseline 1)	50.83	2.87
EmotionThinker-Base (Baseline 2)	52.63	3.41
SFT (V1)	53.91	3.78
GRPO (V2)	62.91	3.45
GRPO-PTR w/o 训练 RM (V3)	66.67	3.36
GRPO-PTR w/o 可信度权重 (V4)	67.71	3.74
GRPO-PTR w/o 渐进调度 (V5)	62.80	3.76
GRPO-PTR 完整 (V6)	68.89	3.98

关键发现¶

SFT 提升推理质量但准确率有限；GRPO 大幅提升准确率但推理质量一般；GRPO-PTR 两者兼顾
未训练的奖励模型引入噪声（V3 vs V6），训练奖励模型至关重要
去除可信度权重（V4）对准确率影响小但推理质量下降，说明 τ 主要防止逻辑错误的推理
取消渐进调度（V5）导致准确率大幅下降至 62.80%，凸显多信号 RL 的稳定性挑战
K 值从 4 到 16 对结果影响有限，选 K=8 做效率-性能折中

亮点与洞察¶

首创将 SER 从分类问题重构为 RL 驱动的深度推理问题
韵律增强 SFT 是关键前置步骤：没有韵律感知能力，推理无法基于真实声学线索
GRPO-PTR 中的可信度权重 τ 设计精巧，组级对齐机制有效防止 reward hacking
四维推理质量评估体系可迁移到其他模态的推理质量评估
人工评估与 GPT 自动评估排序一致，验证了评估方案的可靠性

局限性 / 可改进方向¶

奖励模型仅用 3B 模型微调，可能存在评估偏差
九类情感标签可能不够细粒度（如 sarcasm、混合情感）
仅在英文数据集上验证，跨语言泛化能力未知
推理生成增加推理延迟，实时应用受限

评分¶

新颖性: 5/5 （首次 RL 驱动的可解释语音情感推理，PTR 策略原创性强）
实验充分度: 4/5 （四个 benchmark、16 个 baseline、人工评估、详尽消融）
写作质量: 4/5 （模块化清晰，公式表述严谨）
价值: 5/5 （开辟语音情感推理新范式，方法论可迁移）