Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis¶
会议: CVPR 2026
arXiv: 2602.19585
代码: 无
领域: 语音/音频
关键词: 多模态情感分析, 三子空间解耦, 跨注意力融合, 成对共享, HSIC
一句话总结¶
提出 TSD 框架,将多模态特征显式分解为全局共享/成对共享/模态专属三个互补子空间,并通过子空间感知跨注意力融合模块自适应整合三层信息,在 CMU-MOSI/MOSEI 上全面 SOTA。
研究背景与动机¶
多模态情感分析整合语言/视觉/声学三模态。现有方法大多采用"共享-私有"二分法(如 MISA),将特征分为全局共享和模态专属。但人类情感中大量线索仅在部分模态对之间共享——如讽刺场景中语气和表情共同传达否定情感,但文本表达积极。这种"成对共享"信号在二分法中被忽略或错误归类。
方法详解¶
整体框架¶
特征编码 → 三子空间解耦(共享/成对共享/私有)→ SACA 融合 → 情感预测。
关键设计¶
1. 三子空间编码器¶
- 共享编码器 \(I(\cdot; \theta_c)\):共享参数,提取模态无关的全局一致特征 \(\mathbf{C}_m\)
- 成对共享编码器 \(S_{mn}(\cdot; \theta_{mn})\):每对模态共享参数,提取成对交互特征 \(\mathbf{S}_{mn}^{(m)}\)
- 私有编码器 \(P_m(\cdot; \theta_m)\):各模态独立参数,保留模态特有信息 \(\mathbf{P}_m\)
三模态产生 9 个子空间表示(3 共享 + 3 成对 + 3 私有)。
2. 解耦监督器¶
三分支鉴别器,预测嵌入的真实来源子空间(共享/成对/私有),防止信息泄漏: $\(\mathcal{L}_{sup} = -\frac{1}{M}\sum_m [\log D_{com}(\mathbf{c}_m) + \sum_{n \neq m}\log D_{sub}(\mathbf{s}_{mn}^{(m)}) + \log D_{pri}(\mathbf{p}_m)]\)$
3. 子空间约束损失¶
- 共享一致性损失:\(\mathcal{L}_{com} = \sum \|\mathbf{c}_m - \mathbf{c}_n\|_2^2\)
- 成对协作损失:\(\mathcal{L}_{pair} = \sum \|\mathbf{s}_{mn}^{(m)} - \mathbf{s}_{mn}^{(n)}\|_2^2\)
- 私有独立损失 (HSIC):\(\mathcal{L}_{pri} = \sum \text{HSIC}(\mathbf{p}_{m_1}, \mathbf{p}_{m_2})\)
- 正交性损失:\(\mathcal{L}_{ort} = \sum \|\mathbf{C}_m^\top \mathbf{P}_m\|_F^2 + ...\)
4. 子空间感知跨注意力融合 (SACA)¶
为每个子空间构建上下文集(包含其他子空间信息),做多头跨注意力增强,然后门控网络计算自适应权重 \(\psi_k\) 加权求和:\(\mathbf{Y}_{final} = \sum_k \psi_k \cdot F_{\mathcal{S}}^{(k)}\)
训练策略¶
总损失:\(\mathcal{L}_{all} = \mathcal{L}_{task} + \mathcal{L}_{TS}\)
实验关键数据¶
主实验¶
| 数据集 | 指标 | TSD | EMOE (前SOTA) | 提升 |
|---|---|---|---|---|
| CMU-MOSI | MAE ↓ | 0.691 | 0.697 | -0.9% |
| CMU-MOSI | ACC7 ↑ | 49.0% | 47.8% | +2.5% |
| CMU-MOSI | ACC2 ↑ | 86.5% | 85.4% | +1.3% |
| CMU-MOSEI | ACC7 ↑ | 54.9% | 54.1% | +1.5% |
| CMU-MOSEI | ACC2 ↑ | 86.2% | 85.5% | +0.8% |
消融实验¶
| 配置 | MOSI MAE | 说明 |
|---|---|---|
| 无成对共享 | +0.015 | 成对共享信号对情感判断重要 |
| 无解耦监督器 | +0.012 | 监督器有效防止信息泄漏 |
| 无 SACA | +0.018 | SACA 融合显著优于简单拼接 |
| HSIC 替换为 L2 | +0.008 | HSIC 更好地保证独立性 |
关键发现¶
- 三子空间在所有指标上优于二子空间(共享-私有),5 次随机种子标准差很小
- 在多模态意图识别任务上也展现了良好的迁移能力
亮点与洞察¶
- "成对共享"子空间的显式建模——填补了共享-私有二分法的理论空白
- SACA 的层次化融合设计——每个子空间都能"看到"其他子空间的信息再决定融合权重
- 解耦监督器是对抗训练的自然应用,比 MISA 的模态判别器更精细
局限与展望¶
- 三模态时成对子空间数量为 3,扩展到更多模态时组合爆炸(\(C_n^2\))
- 所有损失的权重 \(\lambda_{1-4}\) 需要仔细调优
- 未涉及时序动态建模(仅在 utterance 级别做情感分析)
相关工作与启发¶
- 相比 MISA:从 2 子空间扩展到 3 子空间,增加了成对共享维度
- HSIC 独立性约束可推广到其他需要正交化的多视图学习任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 三子空间分解理论动机清晰
- 实验充分度: ⭐⭐⭐⭐ 两数据集+意图识别迁移+消融
- 写作质量: ⭐⭐⭐⭐ 数学符号规范
- 价值: ⭐⭐⭐ 提升幅度相对有限,但方向正确
相关论文¶
- [AAAI 2026] PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis
- [AAAI 2026] PaSE: Prototype-aligned Calibration and Shapley-based Equilibrium for Multimodal Sentiment Analysis
- [AAAI 2026] Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection
- [CVPR 2026] UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
- [CVPR 2026] ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos