跳转至

PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis

会议: AAAI2026
arXiv: 2512.01442
作者: Heng Xie, Kang Zhu, Zhengqi Wen, Jianhua Tao, Xuefei Liu, Ruibo Fu, Changsheng Li
代码: 未公开
领域: audio_speech
关键词: 多模态情感分析, 人格-情感对齐, 多层融合, 对比学习, BERT, 个性化情感

一句话总结

首次在多模态情感分析(MSA)中引入预训练人格模型提取个性化情感特征,通过人格-情感对比学习对齐和多层(预融合→交叉模态交互→增强融合)渐进融合架构,在CMU-MOSI和CMU-MOSEI上达到SOTA。

背景与动机

多模态情感分析的挑战

随着社交媒体视频内容爆发式增长,多模态情感分析(MSA)——融合文本、视觉、音频三模态信息进行情感识别——成为人机交互、风险预测等领域的关键技术。与单模态分析相比,MSA通过模态互补性提升情感识别的准确性和稳定性,但同时面临两大核心挑战:如何从各模态提取有效的情感表示,以及如何有效融合来自多模态的情感信息。

现有方法的不足

现有MSA方法在特征提取阶段仅提取浅层信息,忽视了不同人格特质对情感表达的显著差异。心理学和情感计算研究已表明人格特质(Big Five)与情感表达存在密切关联——不同人格的人对相同情境的情感反应和表达方式截然不同。然而,现有方法在情感特征编码时未融入个性化信息。在融合阶段,现有方法直接合并各模态特征,未考虑特征层级差异:预训练模型提取的文本特征信息密度远高于预提取的视觉和音频特征,简单同层融合难以协调不同模态间的信息密度和语义深度差异。

人格-情感交互的理论基础

Eladhari等人提出人格-情感映射模型,Zhang等人通过多任务学习展示了情感与人格特质的互相关系,Mohammadi等人发现人格在情感生成中扮演重要角色。这些研究为在情感分析中引入人格信息提供了理论基础。然而,现有数据集通常仅包含情感标签而无人格标注,如何在仅有情感标签的条件下实现个性化情感建模是一个未解决的问题。

核心问题

如何在多模态情感分析中(1)利用预训练人格模型从文本中提取个性化情感特征并与情感空间对齐,(2)设计渐进式多层融合架构逐步缓解模态间语义鸿沟,从而提升情感识别性能?

方法详解

整体框架

PSA-MF由三大模块组成:(1)特征提取与人格-情感对齐;(2)多模态预融合;(3)交叉模态交互与增强融合。

单模态特征提取

  • 文本:使用fine-tuned BERT的前\(N\)层提取情感嵌入\(\text{CLS}_s\),使用预训练Personality BERT提取人格嵌入\(\text{CLS}_p\)
  • 视觉/音频:LSTM编码预提取的面部动作单元(FACET, 35维)和声学特征(COVAREP):\(h_m = \text{LSTM}(X_m; \theta_{\text{LSTM}_m}), m \in \{v, a\}\)

人格-情感对齐模块

将情感和人格特征线性映射到共同空间后,通过CLIP风格对比学习对齐:

\[\mathcal{L}_{cl} = -\log \frac{\exp(\text{sim}(T_s^i, T_p^i)/\tau)}{\sum_{j=1}^N \exp(\text{sim}(T_s^i, T_p^j)/\tau)}\]

复合对比损失结合余弦相似度加权:\(\mathcal{L}_{ccl} = \text{sim}(T_s^i, T_p^i) \cdot \mathcal{L}_{cl}\)

个性化情感约束损失——动态调节对齐强度并约束在正确的情感空间内:

\[\mathcal{L}_{ps} = (1 - \text{sim}(T_s^i, T_p^i)) \cdot \|W_y \cdot T_s^i - y_i\|_1\]

总对齐损失:\(\mathcal{L}_{\text{Align}} = \mathcal{L}_{ccl} + \mathcal{L}_{ps}\)

多模态预融合

使用BERT的后\((12-N)\)层作为多模态编码器,将文本[CLS]、视觉和音频特征拼接输入进行初步跨模态对齐:

\[\text{CLS}_m = \text{BERT}_m([\text{CLS}_s, X_v, X_a]; \theta_{\text{BERT}_m})\]

同时施加跨模态对比学习损失\(\mathcal{L}_{clm}\)对齐文本与视觉/音频表示。

交叉模态交互与增强融合

预融合特征\(M_s\)作为query,通过多头注意力与视觉/音频特征交互:\(V_t = \text{Att}_v(M_s, h_v, h_v)\), \(A_t = \text{Att}_a(M_s, h_a, h_a)\)

串行融合:线性层合并三路cross-modal表示 \(F_s = W_p \cdot [V_t', A_t', M_s']\)

并行融合:卷积操作(kernel=3)压缩三路堆叠特征 \(F_p = \text{Conv}([V_t, A_t, M_s])\)

最终预测:\(\hat{y} = \text{Sub}([F_s, F_p])\),总损失:\(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{Align}} + \mathcal{L}_{clm} + \|\hat{y}_i - y_i\|_1\)

实验关键数据

数据集:CMU-MOSI (2199段) 和 CMU-MOSEI (23453段)。RTX 3090训练。

主实验对比(MOSI / MOSEI)

方法 MOSI MAE↓ MOSI Acc2↑ MOSI F1↑ MOSEI MAE↓ MOSEI Acc2↑ MOSEI F1↑
TFN 0.901 80.8 80.7 0.593 82.5 82.1
MuLT 0.871 83.0 82.8 0.580 82.5 82.3
MISA 0.783 83.4 83.6 0.555 85.5 85.3
HyCon 0.713 85.2 85.1 0.601 85.4 85.1
FGTI 0.702 85.8 85.8 0.536 86.0 86.0
ULMD 0.700 85.82 85.71 0.531 85.95 85.91
PSA-MF 0.686 86.43 86.19 0.521 86.30 86.28

PSA-MF在MOSI上Acc2较FGTI提高0.63%,F1提高0.39%;在MOSEI上MAE较ULMD降低1.9%。

消融实验(MOSI)

变体 MAE↓ Corr↑ Acc2↑ F1↑
w/o 人格特征 0.711 0.795 84.60 84.47
w/o BERT预融合 0.735 0.778 84.76 84.44
w/o 增强融合 0.806 0.788 85.21 84.96
w/o \(\mathcal{L}_{ps}\) 0.724 0.784 83.99 83.92
w/o \(\mathcal{L}_{clm}\) 0.754 0.784 85.06 84.92
PSA-MF 0.686 0.807 86.43 86.19

去除个性化情感约束损失\(\mathcal{L}_{ps}\)影响最大(Acc2下降2.44%),表明该约束在平衡人格对齐与情感分类中的关键作用。

亮点

  • 首次引入人格预训练模型:在MSA中首次结合Personality BERT提取个性化情感特征,解决传统方法忽视人格因素的问题,且适用于仅有情感标签的数据集
  • 人格-情感对齐设计精巧:CLIP式对比学习实现语义级对齐,个性化情感约束损失动态调节对齐强度,避免过拟合人格特征而偏离真实情感
  • 多层渐进融合架构:从预融合(缓解模态异质性)→交叉模态交互(人格驱动的模态特异性重建)→增强融合(串行+并行双流),逐步弥合模态语义鸿沟
  • 层分析实验深入:通过13层逐层对齐实验揭示人格-情感对齐在纯文本深层(Layer 11)最优,在多模态融合层反而下降,提供了有价值的设计指导

局限与展望

  • 视觉/音频特征过时:仍使用FACET(35维面部动作单元)和COVAREP预提取特征,未利用现代视觉/音频预训练模型(如VideoMAE、HuBERT),特征表达能力受限
  • 数据集规模有限:仅在CMU-MOSI和CMU-MOSEI两个经典但较小的数据集上评估,未在更大规模或更新的MSA数据集上验证
  • 人格模型的泛化性:使用的Personality BERT基于YouTube视频Big Five数据集训练,其人格表示是否适用于不同文化和语言背景未知
  • 融合架构复杂:多层融合+多损失函数的设计引入较多超参数,训练调参成本可能较高

与相关工作的对比

  • TFN/LMF(张量融合):仅做张量级别的模态融合,不考虑个性化信息和模态异质性,本文在Acc2上大幅领先(+5.6%在MOSI上相比TFN)
  • MuLT/MISA(交叉注意力):利用跨模态注意力对齐,但未引入人格信息,本文在MOSEI上Acc2较MISA提升3.2%
  • ULMD(特征解耦):通过模态分离器解耦不变/特异表示,但需设计多个编解码器和复杂约束,本文架构更简洁且在MOSI Acc2上高0.61%
  • FGTI(多粒度融合):通过自监督学习增强模态特异性,但未引入人格维度,本文在MOSI Acc2上高0.63%

启发与关联

  • 人格-情感对齐的思路可推广到其他主观评估任务:如用户评论分析、心理健康检测等,在特征空间中引入个体特质信息
  • 多层渐进融合的设计模式(预融合→交互→增强)提供了处理多模态异质性的通用范式
  • 个性化情感约束损失的设计——用\((1-\text{sim})\)动态加权——是一种优雅的自适应正则化技术

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次在MSA中引入人格预训练模型并设计对齐机制,创新点清晰
  • 实验充分度: ⭐⭐⭐⭐ — 消融充分,层分析有洞见,但数据集和视觉/音频特征较老,缺少最新数据集验证
  • 写作质量: ⭐⭐⭐⭐ — 结构完整,公式推导清晰,图示直观
  • 价值: ⭐⭐⭐⭐ — 个性化情感分析是重要方向,为MSA引入人格维度开辟了新思路

相关论文