跳转至

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

会议: CVPR 2026
arXiv: 2602.19585
代码: 无
领域: 语音/音频
关键词: 多模态情感分析, 三子空间解耦, 跨注意力融合, 成对共享, HSIC

一句话总结

提出 TSD 框架,将多模态特征显式分解为全局共享/成对共享/模态专属三个互补子空间,并通过子空间感知跨注意力融合模块自适应整合三层信息,在 CMU-MOSI/MOSEI 上全面 SOTA。

研究背景与动机

多模态情感分析整合语言/视觉/声学三模态。现有方法大多采用"共享-私有"二分法(如 MISA),将特征分为全局共享和模态专属。但人类情感中大量线索仅在部分模态对之间共享——如讽刺场景中语气和表情共同传达否定情感,但文本表达积极。这种"成对共享"信号在二分法中被忽略或错误归类。

方法详解

整体框架

特征编码 → 三子空间解耦(共享/成对共享/私有)→ SACA 融合 → 情感预测。

关键设计

1. 三子空间编码器

  • 共享编码器 \(I(\cdot; \theta_c)\):共享参数,提取模态无关的全局一致特征 \(\mathbf{C}_m\)
  • 成对共享编码器 \(S_{mn}(\cdot; \theta_{mn})\):每对模态共享参数,提取成对交互特征 \(\mathbf{S}_{mn}^{(m)}\)
  • 私有编码器 \(P_m(\cdot; \theta_m)\):各模态独立参数,保留模态特有信息 \(\mathbf{P}_m\)

三模态产生 9 个子空间表示(3 共享 + 3 成对 + 3 私有)。

2. 解耦监督器

三分支鉴别器,预测嵌入的真实来源子空间(共享/成对/私有),防止信息泄漏: $\(\mathcal{L}_{sup} = -\frac{1}{M}\sum_m [\log D_{com}(\mathbf{c}_m) + \sum_{n \neq m}\log D_{sub}(\mathbf{s}_{mn}^{(m)}) + \log D_{pri}(\mathbf{p}_m)]\)$

3. 子空间约束损失

  • 共享一致性损失\(\mathcal{L}_{com} = \sum \|\mathbf{c}_m - \mathbf{c}_n\|_2^2\)
  • 成对协作损失\(\mathcal{L}_{pair} = \sum \|\mathbf{s}_{mn}^{(m)} - \mathbf{s}_{mn}^{(n)}\|_2^2\)
  • 私有独立损失 (HSIC):\(\mathcal{L}_{pri} = \sum \text{HSIC}(\mathbf{p}_{m_1}, \mathbf{p}_{m_2})\)
  • 正交性损失\(\mathcal{L}_{ort} = \sum \|\mathbf{C}_m^\top \mathbf{P}_m\|_F^2 + ...\)

4. 子空间感知跨注意力融合 (SACA)

为每个子空间构建上下文集(包含其他子空间信息),做多头跨注意力增强,然后门控网络计算自适应权重 \(\psi_k\) 加权求和:\(\mathbf{Y}_{final} = \sum_k \psi_k \cdot F_{\mathcal{S}}^{(k)}\)

训练策略

总损失:\(\mathcal{L}_{all} = \mathcal{L}_{task} + \mathcal{L}_{TS}\)

实验关键数据

主实验

数据集 指标 TSD EMOE (前SOTA) 提升
CMU-MOSI MAE ↓ 0.691 0.697 -0.9%
CMU-MOSI ACC7 ↑ 49.0% 47.8% +2.5%
CMU-MOSI ACC2 ↑ 86.5% 85.4% +1.3%
CMU-MOSEI ACC7 ↑ 54.9% 54.1% +1.5%
CMU-MOSEI ACC2 ↑ 86.2% 85.5% +0.8%

消融实验

配置 MOSI MAE 说明
无成对共享 +0.015 成对共享信号对情感判断重要
无解耦监督器 +0.012 监督器有效防止信息泄漏
无 SACA +0.018 SACA 融合显著优于简单拼接
HSIC 替换为 L2 +0.008 HSIC 更好地保证独立性

关键发现

  • 三子空间在所有指标上优于二子空间(共享-私有),5 次随机种子标准差很小
  • 在多模态意图识别任务上也展现了良好的迁移能力

亮点与洞察

  1. "成对共享"子空间的显式建模——填补了共享-私有二分法的理论空白
  2. SACA 的层次化融合设计——每个子空间都能"看到"其他子空间的信息再决定融合权重
  3. 解耦监督器是对抗训练的自然应用,比 MISA 的模态判别器更精细

局限与展望

  1. 三模态时成对子空间数量为 3,扩展到更多模态时组合爆炸(\(C_n^2\)
  2. 所有损失的权重 \(\lambda_{1-4}\) 需要仔细调优
  3. 未涉及时序动态建模(仅在 utterance 级别做情感分析)

相关工作与启发

  • 相比 MISA:从 2 子空间扩展到 3 子空间,增加了成对共享维度
  • HSIC 独立性约束可推广到其他需要正交化的多视图学习任务

评分

  • 新颖性: ⭐⭐⭐⭐ 三子空间分解理论动机清晰
  • 实验充分度: ⭐⭐⭐⭐ 两数据集+意图识别迁移+消融
  • 写作质量: ⭐⭐⭐⭐ 数学符号规范
  • 价值: ⭐⭐⭐ 提升幅度相对有限,但方向正确

相关论文