Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy¶

会议: CVPR 2026
arXiv: 2603.02123
代码: https://github.com/waHAHJIAHAO/Nano-EmoX
领域: 多模态VLM
关键词: 情感计算, 多模态语言模型, 认知层次, 情绪识别, 共情交互

一句话总结¶

Nano-EmoX 提出认知启发的三级情感任务层次（感知→理解→交互），是首个以2.2B紧凑参数统一六项核心情感任务的多模态语言模型，通过P2E渐进式训练框架从基础感知逐步培养到高层共情能力。

研究背景与动机¶

领域现状：情感多模态语言模型（MLM）的发展受限于低层感知与高层交互之间的鸿沟，导致情感能力碎片化和泛化有限。
现有痛点：（i）现有模型多为单一层次专家——要么做感知（情绪识别），要么做理解（原因推理），要么做交互（共情回复），缺乏统一；（ii）模型规模大（7-9B），实际部署困难。
核心矛盾：情感智能是从感知到共情的连续谱，但现有方法将其割裂为独立任务，缺乏跨层次知识迁移。
本文目标：设计紧凑的统一模型（<3B参数），跨越感知-理解-交互三个认知层次完成六项核心情感任务。
切入角度：受感知-行动模型启发，按认知深度组织情感任务，从低到高渐进式训练。
核心idea：全模态编码器（增强面部编码器+融合编码器）+ P2E渐进训练框架（感知→融合→多任务指令微调）。

方法详解¶

整体框架¶

四个模态分支（视觉、语音、面部、融合）+ 异构适配器 + 轻量语言模型（Qwen2.5 2.2B）。六项任务：多模态情感分析(MSA)、多模态情绪识别(MER)、开放词汇MER(OV-MER)、情绪原因推理(ERI)、多模态意图识别(MIR)、共情回复生成(ERG)。

关键设计¶

增强面部编码器:
- 功能：提取细粒度、身份无关的面部情感表征
- 核心思路：使用FaceXFormer编码器从视频帧提取多尺度面部特征 \(E_f\)，通过时间建模（Temporal Modeling）模块重建帧间时间关系——使用交叉注意力 \(E_f^c = \text{CrossAttention}(Q, E_f^K, E_f^V)\)，其中 \(Q\) 是可学习的时间查询token。最终通过两层全连接网络对齐到语言模型维度。
- 设计动机：面部表情是情感感知的关键视觉线索，但通用视觉编码器（如SigLIP）不够精细。专门的面部编码器+时间建模能捕捉表情动态变化。
跨模态层次专家融合编码器:
- 功能：自适应地融合视觉和语音的互补情感信息
- 核心思路：三个融合专家（独立权重），分别对视觉和语音编码器的不同层特征（第16/18/22层语音 + 第12/16/22层视觉）进行交叉注意力融合，生成 \(E_{mf}^i\)。门控网络动态调整每个专家的贡献 \(G_1, G_2, G_3\)，最终融合嵌入 \(E_{mf} = G_1 \odot E_{mf}^1 + G_2 \odot E_{mf}^2 + G_3 \odot E_{mf}^3\)。
- 设计动机：不同认知层次的任务需要不同层次的特征融合（如低层特征适合音调感知，高层特征适合语义推理）。层次化专家+动态门控实现了任务自适应的融合。
P2E渐进训练框架:
- 功能：按认知深度逐步培养模型的情感智能
- 核心思路：三阶段课程——（1）Phase 1：基础模态对齐，仅训练各模态适配器（视觉+面部在FERV39K/CAER上，语音在CREMA-D/M3ED上）；（2）Phase 2：跨模态融合预训练，在MIntRec/MIntRec2.0上激活并训练融合编码器；（3）Phase 3：多任务指令微调，激活LoRA微调LM，按精心设计的数据混合比例（MER:OV-MER:MIR:ERI:ERG = 18:28:5:31:18）同时训练所有六项任务。
- 设计动机：按认知发展规律从浅到深训练——先建立感知基础，再培养跨模态融合能力，最后发展高层推理和共情。

损失函数 / 训练策略¶

统一的最大似然估计目标：\(\theta^{MLE} = \arg\max_\theta \sum \log P(Y|T;\theta)\)。三阶段逐步解冻不同模块。

实验关键数据¶

主实验¶

任务	Nano-EmoX (2.2B)	AffectGPT (8.3B)	EmoLLMs (7B)	说明
MSA	有竞争力	SOTA	-	隐式学习
MER	SOTA/竞争力	次优	次优	核心感知任务
OV-MER	SOTA	次优	N/A	开放词汇
ERI	SOTA/竞争力	次优	N/A	原因推理
MIR	SOTA	N/A	N/A	意图识别
ERG	SOTA/竞争力	N/A	N/A	共情回复

消融实验¶

配置	关键指标	说明
Full Nano-EmoX	最优	完整框架
w/o 面部编码器	下降	面部线索对情绪感知重要
w/o 融合编码器	下降	跨模态融合有效
w/o P2E (直接多任务)	显著下降	渐进训练很关键

关键发现¶

2.2B参数即可在六项任务上匹配或超越7-9B模型，证明了架构效率和训练策略的有效性。
P2E渐进训练比直接多任务训练提升显著，说明认知层次的课程设计有价值。
面部编码器对情绪感知的贡献大于通用视觉编码器的增强。

亮点与洞察¶

三级认知层次的框架不仅是任务组织方式，更是训练策略的指导原则。
首次以<3B参数统一六项情感任务，在效率和能力间取得了出色平衡。
意图识别作为感知-推理桥梁的Phase 2设计有理论基础——意图推理需要跨模态综合。

局限与展望¶

小模型在复杂推理任务上可能仍逊于大模型。
训练数据主要覆盖英语/中文，多语言泛化未验证。
MSA任务未显式训练而是隐式从相关任务中获取，可能不够最优。

评分¶

新颖性: ⭐⭐⭐⭐ 认知层次框架和P2E训练策略有新意
实验充分度: ⭐⭐⭐⭐⭐ 六项任务全面评测，消融深入
写作质量: ⭐⭐⭐⭐ 框架清晰，认知理论基础扎实
价值: ⭐⭐⭐⭐⭐ 紧凑高效的统一情感AI，实际部署价值高