跳转至

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

会议: CVPR 2026
arXiv: 2603.02123
代码: https://github.com/waHAHJIAHAO/Nano-EmoX
领域: 多模态VLM
关键词: 情感计算, 多模态语言模型, 认知层次, 情绪识别, 共情交互

一句话总结

Nano-EmoX 提出认知启发的三级情感任务层次(感知→理解→交互),是首个以2.2B紧凑参数统一六项核心情感任务的多模态语言模型,通过P2E渐进式训练框架从基础感知逐步培养到高层共情能力。

研究背景与动机

  1. 领域现状:情感多模态语言模型(MLM)的发展受限于低层感知与高层交互之间的鸿沟,导致情感能力碎片化和泛化有限。
  2. 现有痛点:(i)现有模型多为单一层次专家——要么做感知(情绪识别),要么做理解(原因推理),要么做交互(共情回复),缺乏统一;(ii)模型规模大(7-9B),实际部署困难。
  3. 核心矛盾:情感智能是从感知到共情的连续谱,但现有方法将其割裂为独立任务,缺乏跨层次知识迁移。
  4. 本文目标:设计紧凑的统一模型(<3B参数),跨越感知-理解-交互三个认知层次完成六项核心情感任务。
  5. 切入角度:受感知-行动模型启发,按认知深度组织情感任务,从低到高渐进式训练。
  6. 核心idea:全模态编码器(增强面部编码器+融合编码器)+ P2E渐进训练框架(感知→融合→多任务指令微调)。

方法详解

整体框架

四个模态分支(视觉、语音、面部、融合)+ 异构适配器 + 轻量语言模型(Qwen2.5 2.2B)。六项任务:多模态情感分析(MSA)、多模态情绪识别(MER)、开放词汇MER(OV-MER)、情绪原因推理(ERI)、多模态意图识别(MIR)、共情回复生成(ERG)。

关键设计

  1. 增强面部编码器:

    • 功能:提取细粒度、身份无关的面部情感表征
    • 核心思路:使用FaceXFormer编码器从视频帧提取多尺度面部特征 \(E_f\),通过时间建模(Temporal Modeling)模块重建帧间时间关系——使用交叉注意力 \(E_f^c = \text{CrossAttention}(Q, E_f^K, E_f^V)\),其中 \(Q\) 是可学习的时间查询token。最终通过两层全连接网络对齐到语言模型维度。
    • 设计动机:面部表情是情感感知的关键视觉线索,但通用视觉编码器(如SigLIP)不够精细。专门的面部编码器+时间建模能捕捉表情动态变化。
  2. 跨模态层次专家融合编码器:

    • 功能:自适应地融合视觉和语音的互补情感信息
    • 核心思路:三个融合专家(独立权重),分别对视觉和语音编码器的不同层特征(第16/18/22层语音 + 第12/16/22层视觉)进行交叉注意力融合,生成 \(E_{mf}^i\)。门控网络动态调整每个专家的贡献 \(G_1, G_2, G_3\),最终融合嵌入 \(E_{mf} = G_1 \odot E_{mf}^1 + G_2 \odot E_{mf}^2 + G_3 \odot E_{mf}^3\)
    • 设计动机:不同认知层次的任务需要不同层次的特征融合(如低层特征适合音调感知,高层特征适合语义推理)。层次化专家+动态门控实现了任务自适应的融合。
  3. P2E渐进训练框架:

    • 功能:按认知深度逐步培养模型的情感智能
    • 核心思路:三阶段课程——(1)Phase 1:基础模态对齐,仅训练各模态适配器(视觉+面部在FERV39K/CAER上,语音在CREMA-D/M3ED上);(2)Phase 2:跨模态融合预训练,在MIntRec/MIntRec2.0上激活并训练融合编码器;(3)Phase 3:多任务指令微调,激活LoRA微调LM,按精心设计的数据混合比例(MER:OV-MER:MIR:ERI:ERG = 18:28:5:31:18)同时训练所有六项任务。
    • 设计动机:按认知发展规律从浅到深训练——先建立感知基础,再培养跨模态融合能力,最后发展高层推理和共情。

损失函数 / 训练策略

统一的最大似然估计目标:\(\theta^{MLE} = \arg\max_\theta \sum \log P(Y|T;\theta)\)。三阶段逐步解冻不同模块。

实验关键数据

主实验

任务 Nano-EmoX (2.2B) AffectGPT (8.3B) EmoLLMs (7B) 说明
MSA 有竞争力 SOTA - 隐式学习
MER SOTA/竞争力 次优 次优 核心感知任务
OV-MER SOTA 次优 N/A 开放词汇
ERI SOTA/竞争力 次优 N/A 原因推理
MIR SOTA N/A N/A 意图识别
ERG SOTA/竞争力 N/A N/A 共情回复

消融实验

配置 关键指标 说明
Full Nano-EmoX 最优 完整框架
w/o 面部编码器 下降 面部线索对情绪感知重要
w/o 融合编码器 下降 跨模态融合有效
w/o P2E (直接多任务) 显著下降 渐进训练很关键

关键发现

  • 2.2B参数即可在六项任务上匹配或超越7-9B模型,证明了架构效率和训练策略的有效性。
  • P2E渐进训练比直接多任务训练提升显著,说明认知层次的课程设计有价值。
  • 面部编码器对情绪感知的贡献大于通用视觉编码器的增强。

亮点与洞察

  • 三级认知层次的框架不仅是任务组织方式,更是训练策略的指导原则。
  • 首次以<3B参数统一六项情感任务,在效率和能力间取得了出色平衡。
  • 意图识别作为感知-推理桥梁的Phase 2设计有理论基础——意图推理需要跨模态综合。

局限与展望

  • 小模型在复杂推理任务上可能仍逊于大模型。
  • 训练数据主要覆盖英语/中文,多语言泛化未验证。
  • MSA任务未显式训练而是隐式从相关任务中获取,可能不够最优。

相关工作与启发

  • vs AffectGPT: 8.3B参数支持四项任务,Nano-EmoX以2.2B支持六项且性能相当或更优。
  • vs EmoLLMs: 仅做文本级情感任务,Nano-EmoX扩展到完整的多模态情感智能。

评分

  • 新颖性: ⭐⭐⭐⭐ 认知层次框架和P2E训练策略有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 六项任务全面评测,消融深入
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,认知理论基础扎实
  • 价值: ⭐⭐⭐⭐⭐ 紧凑高效的统一情感AI,实际部署价值高

相关论文