Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis¶

会议: CVPR 2026
arXiv: 2602.19585
代码: 无
领域: 语音/音频
关键词: 多模态情感分析, 三子空间解耦, 跨注意力融合, 成对共享, HSIC

一句话总结¶

提出 TSD 框架，将多模态特征显式分解为全局共享/成对共享/模态专属三个互补子空间，并通过子空间感知跨注意力融合模块自适应整合三层信息，在 CMU-MOSI/MOSEI 上全面 SOTA。

研究背景与动机¶

多模态情感分析整合语言/视觉/声学三模态。现有方法大多采用"共享-私有"二分法（如 MISA），将特征分为全局共享和模态专属。但人类情感中大量线索仅在部分模态对之间共享——如讽刺场景中语气和表情共同传达否定情感，但文本表达积极。这种"成对共享"信号在二分法中被忽略或错误归类。

方法详解¶

整体框架¶

特征编码 → 三子空间解耦（共享/成对共享/私有）→ SACA 融合 → 情感预测。

关键设计¶

1. 三子空间编码器¶

共享编码器 $I(\cdot; \theta_c)$：共享参数，提取模态无关的全局一致特征 $\mathbf{C}_m$
成对共享编码器 $S_{mn}(\cdot; \theta_{mn})$：每对模态共享参数，提取成对交互特征 $\mathbf{S}_{mn}^{(m)}$
私有编码器 $P_m(\cdot; \theta_m)$：各模态独立参数，保留模态特有信息 $\mathbf{P}_m$

三模态产生 9 个子空间表示（3 共享 + 3 成对 + 3 私有）。

2. 解耦监督器¶

三分支鉴别器，预测嵌入的真实来源子空间（共享/成对/私有），防止信息泄漏： $$\mathcal{L}_{sup} = -\frac{1}{M}\sum_m [\log D_{com}(\mathbf{c}_m) + \sum_{n \neq m}\log D_{sub}(\mathbf{s}_{mn}^{(m)}) + \log D_{pri}(\mathbf{p}_m)]$$

3. 子空间约束损失¶

共享一致性损失：$\mathcal{L}_{com} = \sum \|\mathbf{c}_m - \mathbf{c}_n\|_2^2$
成对协作损失：$\mathcal{L}_{pair} = \sum \|\mathbf{s}_{mn}^{(m)} - \mathbf{s}_{mn}^{(n)}\|_2^2$
私有独立损失 (HSIC)：$\mathcal{L}_{pri} = \sum \text{HSIC}(\mathbf{p}_{m_1}, \mathbf{p}_{m_2})$
正交性损失：$\mathcal{L}_{ort} = \sum \|\mathbf{C}_m^\top \mathbf{P}_m\|_F^2 + ...$

4. 子空间感知跨注意力融合 (SACA)¶

为每个子空间构建上下文集（包含其他子空间信息），做多头跨注意力增强，然后门控网络计算自适应权重 $\psi_k$ 加权求和：$\mathbf{Y}_{final} = \sum_k \psi_k \cdot F_{\mathcal{S}}^{(k)}$

训练策略¶

总损失：$\mathcal{L}_{all} = \mathcal{L}_{task} + \mathcal{L}_{TS}$

实验关键数据¶

主实验¶

数据集	指标	TSD	EMOE (前SOTA)	提升
CMU-MOSI	MAE ↓	0.691	0.697	-0.9%
CMU-MOSI	ACC7 ↑	49.0%	47.8%	+2.5%
CMU-MOSI	ACC2 ↑	86.5%	85.4%	+1.3%
CMU-MOSEI	ACC7 ↑	54.9%	54.1%	+1.5%
CMU-MOSEI	ACC2 ↑	86.2%	85.5%	+0.8%

消融实验¶

配置	MOSI MAE	说明
无成对共享	+0.015	成对共享信号对情感判断重要
无解耦监督器	+0.012	监督器有效防止信息泄漏
无 SACA	+0.018	SACA 融合显著优于简单拼接
HSIC 替换为 L2	+0.008	HSIC 更好地保证独立性

关键发现¶

三子空间在所有指标上优于二子空间（共享-私有），5 次随机种子标准差很小
在多模态意图识别任务上也展现了良好的迁移能力

亮点与洞察¶

"成对共享"子空间的显式建模——填补了共享-私有二分法的理论空白
SACA 的层次化融合设计——每个子空间都能"看到"其他子空间的信息再决定融合权重
解耦监督器是对抗训练的自然应用，比 MISA 的模态判别器更精细

局限与展望¶

三模态时成对子空间数量为 3，扩展到更多模态时组合爆炸（$C_n^2$）
所有损失的权重 $\lambda_{1-4}$ 需要仔细调优
未涉及时序动态建模（仅在 utterance 级别做情感分析）

评分¶

新颖性: ⭐⭐⭐⭐ 三子空间分解理论动机清晰
实验充分度: ⭐⭐⭐⭐ 两数据集+意图识别迁移+消融
写作质量: ⭐⭐⭐⭐ 数学符号规范
价值: ⭐⭐⭐ 提升幅度相对有限，但方向正确