跳转至

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

日期: 2026-03-02
arXiv: 2603.02123
代码: 无
领域: 多模态/VLM / 情感计算
关键词: multimodal emotion recognition, affective computing, curriculum learning, MoE fusion, empathetic response

一句话总结

提出 Nano-EmoX(2.2B),一个紧凑型多任务多模态情感语言模型,通过三层认知层级框架(感知→理解→交互)和 P2E 课程训练策略,首次在单模型中统一六项核心情感任务(MSA/MER/OV-MER/ERI/MIR/ERG),以 73% 参数缩减达到或超越 7-9B 级别的 SOTA。

研究背景与动机

  1. 领域现状:情感计算领域存在大量离散任务——情感分析、情绪识别、意图识别、共情回复生成等——但缺乏一个统一框架来组织这些任务之间的关系。现有方法多为"单层专家",只在某一认知层面(如仅感知或仅理解)上做得好。
  2. 三大痛点
    • 融合不充分:现有融合机制难以适应不同认知层任务的差异化特征需求
    • 能力碎片化:Table 1 显示,现有模型最多覆盖 2-3 个任务,没有模型能同时处理感知到交互全栈
    • 资源密集:多数方法基于 7B+ 模型,部署多个任务特定模型不切实际
  3. 核心切入:受 Preston & de Waal 感知-行动模型启发,提出三层认知层级——Level 1 感知(MSA/MER/OV-MER)、Level 2 理解(ERI/MIR)、Level 3 交互(ERG),按认知深度递进组织情感任务,并设计匹配的课程训练策略。

方法详解

整体框架

Nano-EmoX 由四个模态分支 + 一个轻量语言模型(Qwen2.5-1.5B)组成。四个分支分别处理:通用视觉(CLIP-Large)、面部表情(FaceXFormer)、语音(HuBERT-Large)、跨模态融合(层级专家网络)。各分支输出通过异构适配器映射到统一语言空间,由 LM 统一处理所有下游任务。

关键设计 1: 增强面部编码器

面部表情是情感识别的关键线索,但现有 MLM 通常只用通用视觉编码器,缺乏细粒度面部建模。

  • 多尺度特征提取:FaceXFormer 从 block-1/2/3/4 提取多尺度面部特征(从细粒度纹理到全局结构),通过 MLP Fusion 聚合为统一表示 \(E_f\)
  • 时序建模:引入可学习时序查询 token \(Q\),通过交叉注意力与帧顺序的面部特征交互,捕捉面部情绪表达的时间演变:\(E_f^c = \text{CrossAttention}(Q, E_f^K, E_f^V)\)
  • 轻量输出:面部只输出 4 个 token(vs 视觉和语音各 32 个),极致精简

关键设计 2: 跨模态层级专家融合

三个独立权重的融合专家 + 门控网络:

  • 层级特征对配:从语音编码器(layer 16/18/22)和视觉编码器(layer 12/16/22)分别提取中间层特征,低到高逐对送入三个融合专家
  • 融合机制:每个专家 \(i\) 用语音特征做 query、视觉特征做 key/value 做交叉注意力——\(E_m^i = \text{CrossAttention}(E_s^Q, E_v^K, E_v^V) + E_s^Q\),利用语音(情感更稳定)引导视觉注意
  • 动态门控:门控网络根据任务需求动态调权:\(E_{mf} = G_1 \odot E_{mf}^1 + G_2 \odot E_{mf}^2 + G_3 \odot E_{mf}^3\)
  • 设计动机:浅层特征偏声学/视觉底层特征,深层偏语义,三专家分层覆盖不同粒度的跨模态情感信息

关键设计 3: P2E 课程训练框架

三阶段由浅入深,对应认知层级递进:

  1. Phase 1 — 基础模态对齐:冻结主模型,训练各模态适配器。视觉+面部在 FERV39K/CAER 上训练 25K 步,语音在 CREMA-D/M3ED 上训练 15K 步。目标:建立单模态情感特征到语言空间的映射
  2. Phase 2 — 跨模态融合预训练:意图识别(MIR)作为感知到推理的桥梁任务——需要综合多模态线索推断社交目的。激活融合编码器,在 MIntRec/MIntRec2.0 上训练 5K 步
  3. Phase 3 — 多任务指令微调:激活 LM 的 LoRA(r=32, α=16),在所有六项任务上混合训练 300K 步。数据配比 MER:OV-MER:MIR:ERI:ERG = 18:28:5:31:18。ERG 任务使用 Chain-of-Empathy 推理(分析场景→识别情绪→推断原因→确定回复目标)

整体训练仅需单张 RTX 4090,32 小时

实验关键数据

主实验(MSA/MER/OV-MER 零样本)

模型 Scale MER2023 MER2024 MELD IEMOCAP OV-MERD Avg.
Nano-EmoX 2.2B 79.09 77.94 56.55 60.12 64.75 74.01
AffectGPT 6.1B 78.54 78.80 55.65 60.54 62.52 74.77
AffectGPT (s) + P2E 0.1B 72.43 77.83 50.19 57.64 63.75 72.08
Emotion-LLaMA 5.6B 59.38 73.62 46.76 55.47 52.97 64.17
R1-Omni 0.1B 58.30 69.41 40.87 50.18 51.84 58.46

消融实验(融合编码器层数/深度)

配置 MSA/MER/OV-MER Avg. ERI Avg. ERG Hit Rate
2 专家 (layer 8/18, 8/16) 71.98 6.02 88.26
3 专家 (layer 16/18/22, 12/16/22) 74.01 6.80 91.13
4 专家 (8/16/18/22, 8/12/16/22) 71.09 - -

人类盲审评估(共情回复生成)

模型 Empathy Insight Safety Avg.
Nano-EmoX 4.75 4.42 4.87 4.68
AffectGPT (s) 4.34 4.16 4.79 4.43
Qwen2.5-Omni-7B 3.98 4.03 4.59 4.20

关键发现

  • 2.2B 即可统一六任务:Nano-EmoX 以 73% 参数缩减达到 6.1B AffectGPT 约 99% 的平均性能(74.01 vs 74.77),在 MER2023 和 MELD 上直接超越
  • P2E 训练框架有效:同架构下 P2E vs 联合训练的差距明显(74.01 vs 73.28 Avg.),课程学习带来 0.73 分提升
  • 面部编码器关键:专门的面部分支仅用 4 个 token 就显著提升情感识别,说明细粒度面部建模的 ROI 极高
  • 融合层数的甜蜜点:3 专家是最优配置——2 专家信息不足,4 专家收益递减且增加计算
  • 视觉 token 数量 trade-off:32 token 足够感知任务,但 MIR 等推理任务受益于更多 token(128 时 MIR 提升 +7.8%)

亮点与洞察

  • 三层认知层级框架:将碎片化的情感计算任务系统化组织为感知→理解→交互三个层次,不仅是方法贡献,更是领域的概念贡献。这个框架可以指导评估任何情感 AI 系统的"情感成熟度"。
  • 语音引导视觉融合:融合专家用语音做 query 引导视觉注意,设计动机是语音的情感信号比视觉更稳定和可靠——这个 insight 可以推广到其他多模态融合场景。
  • Chain-of-Empathy:ERG 任务的四步推理(场景→情绪→原因→回复目标)将 CoT 思想引入共情生成,生成质量显著优于直接回复。

局限性 / 可改进方向

  • MIR 任务明显偏弱:在意图识别上仍不及 LGSRR 等专用模型,作者也指出增加视觉 token 可改善(128 token 时 +7.8%)
  • 只评英文和中文:所有基准均为英中,跨语言/跨文化的情感理解未验证
  • 面部检测的前提假设:面部编码器依赖视频中有清晰面部,在面部遮挡/非正面/多人场景下可能退化
  • LoRA 而非全参微调:Phase 3 仅 LoRA 微调 LM,可能限制了 LM 的深层情感推理能力

相关工作与启发

  • vs AffectGPT (6.1B):AffectGPT 是最接近的竞品,支持 MSA/MER/OV-MER/ERI 四任务。Nano-EmoX 添加了 MIR 和 ERG,且只用 2.2B 参数。差距在于 AffectGPT 在某些指标上仍领先(IEMOCAP 60.54 vs 60.12)
  • vs R1-Omni (2.1B):同尺度,R1-Omni 用 RL 增强推理但只覆盖 MER 和 ERI 两个任务,Nano-EmoX 覆盖面更广
  • 对情感 AI 的启示:小模型 + 专用编码器 + 课程训练 > 大模型 + 通用编码器 + 联合训练

评分

  • 新颖性: ⭐⭐⭐⭐ 三层认知框架和 P2E 训练有明确贡献,融合编码器设计也有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 13 个基准、6 项任务、丰富消融 + 人类评估,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,认知层级的引入提升了论文的概念深度
  • 价值: ⭐⭐⭐⭐ 首个统一六任务的紧凑型情感 MLM,单张 4090 可训练,部署友好