Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs¶

会议: ACL 2025
arXiv: 2505.01068
代码: https://github.com/thuiar/MMSA
领域: 图学习
关键词: 多模态情感分析, 图结构, Transformer, 权重共享, 注意力掩码

一句话总结¶

从图论视角证明了多模态 Transformer（MulTs）本质上是层次化模态异质图（HMHG），并基于此提出 GsiT 模型，通过 Interlaced Mask 机制实现仅 1/3 参数的 All-Modal-In-One 融合，同时性能显著超越传统 MulTs。

研究背景与动机¶

多模态情感分析（MSA）需要融合文本、视频、音频等异质模态来识别情感。Multimodal Transformer（MulT）及其后续变体（MulTs）是当前主流范式，通过跨模态注意力（CMA）和多头自注意力（MHSA）实现融合。然而 MulTs 存在严重的效率问题：

参数冗余：MulTs 将三模态拆解为成对组合分别处理，每对组合使用独立权重（6 个 CMA + 3 个 MHSA + 9 个 MLP），参数量大
端到端系统约束：MSA 是端到端判别任务，模型需要在实际部署中兼顾性能和效率
缺乏理论分析：MulTs 的结构冗余缺少形式化的理论分析和优化指导

作者提出一个关键洞察：对于 MSA 系统，通过设计低成本高性能模型节省的资源，在某些方面比单纯使用大模型带来的准确率提升更有意义。

方法详解¶

1. 理论基础：MulTs 即层次异质图（HMHG）¶

论文首先建立了注意力机制与图结构的等价关系：

引理 1：多头跨模态注意力（CMA）等价于双模态组合的单向完全二部图的聚合；多头自注意力（MHSA）等价于单模态有向完全图的聚合
定理 1：MulTs 是层次化模态异质图（HMHG）

具体地，MulTs 可以分解为： - 底层子图 G(i,j) 和 G(i,p)：由 CMA 构建的跨模态二部图 - 中间拼接层：将跨模态融合向量拼接 - 顶层子图 G(i,i)：由 MHSA 构建的模态内有向完全图

从单一主导模态看，形成一棵树；多个主导模态的树组合形成森林结构。

2. Graph-Structured Interlaced-Masked Multimodal Transformer (GsiT)¶

基于 HMHG 定理发现的参数冗余，GsiT 将传统的森林结构压缩为单棵共享权重的树结构。核心机制是 Interlaced Mask (IM)，包含两部分：

Interlaced-Multimodal-Fusion Mask (IFM)： - forward mask：允许 v->t, a->v, t->a 方向的注意力 - backward mask：允许 a->t, t->v, v->a 方向的注意力 - 两个反向单向环形成完整的跨模态融合，避免信息混乱

Interlaced-Intra-Enhancement Mask (IEM)： - 仅允许模态内自注意力（t->t, v->v, a->a），屏蔽跨模态位置

通过在注意力得分矩阵中加上负无穷掩码实现图结构约束，使得共享权重的 MHSA 等效于独立的 CMA 操作。

3. Decomposition Triton 核¶

GsiT 拼接多模态序列后注意力图空间复杂度为 O((T_t+T_v+T_a)^2)，高于 MulTs 的 O(T_i*T_j)。为此实现了 Decomposition Triton 核：在共享 QKV 投影后，按原始序列长度分解，按 IM 指定的模态对独立执行注意力，使运行时空间复杂度与 MulTs 持平，同时静态参数量降为 1/3。

最终函数系统从 MulTs 的 6 个 CMA + 3 个 MHSA + 9 个 MLP 压缩为 3 个 MHSA + 3 个 MLP，参数量降至传统方法的 1/3，实现所有模态在共享权重中完成融合。

实验关键数据¶

表 1：CMU-MOSI 和 CMU-MOSEI 主实验¶

模型	MOSI Acc-2 (NN/NP)	MOSI Acc-7	MOSEI Acc-2 (NN/NP)	Params (M)	FLOPS (G)
MulT	79.6 / 81.4	36.2	78.1 / 83.7	5.251	26.294
GsiT	83.7 / 85.8	47.4	84.5 / 85.6	1.695	26.224
Delta	+4.1 / +4.4	+11.2	+6.4 / +1.9	-67.7%	-0.3%
TETFN	82.4 / 84.0	46.1	81.9 / 84.3	5.921	27.558
TETFN w/ HMHG	83.2 / 85.2	47.1	84.6 / 84.8	2.365	27.488
ALMT	82.1 / 83.3	45.5	81.4 / 83.5	2.604	19.876
ALMT w/ HMHG	83.2 / 84.6	47.1	82.9 / 86.4	2.506	19.876

GsiT 相比 MulT：参数量减少 67.7%，Acc-2 提升 4+%，Acc-7 提升 11.2%。

表 2：消融实验（CMU-MOSI）¶

结构	Acc-2 (NN/NP)	Acc-7	MAE
Original (对向环形)	83.7 / 85.8	47.4	0.713
Structure-1 (非环形)	83.5 / 85.5	46.5	0.721
Structure-2 (非环形)	83.2 / 84.9	43.8	0.729
Structure-3 (非环形)	83.4 / 85.2	45.5	0.726
Self-Only (信息混乱)	82.5 / 84.2	45.5	0.734

对向环形结构最优；违反 HMHG 约束的 Self-Only 性能最差，验证了信息混乱问题的存在。

亮点¶

理论贡献突出：严格证明 MulTs 与 HMHG 的等价关系，将多模态融合的结构化分析提升到图论高度
参数效率极高：仅用 1/3 参数即实现甚至超越原始 MulTs 性能，Acc-7 提升 11.2% 令人印象深刻
通用性强：HMHG 概念可即插即用地嵌入 Self-MM、TETFN、ALMT 等多种基线模型并带来提升
信息混乱理论：从 softmax 概率分布角度解释了为什么掩码设计需要遵循特定约束，提供了清晰的理论指导
工程落地友好：Decomposition Triton 核确保运行时无额外计算开销

局限与展望¶

任务范围有限：仅在多模态情感分析上验证，未扩展到视频问答、多模态检索等更广泛的多模态任务
模态缺失未考虑：未讨论当某个模态缺失时模型的鲁棒性
表示学习未结合：第一层融合编码器对中未引入对比学习等表示学习方法，是未来可探索的方向
仅限三模态：当前框架针对文本/视频/音频三模态设计，扩展到更多模态时 IM 的设计需要重新考虑
数据集规模偏小：CMU-MOSI/MOSEI 等经典 MSA 数据集规模有限，未在大规模数据上验证

与相关工作的对比¶

MulT (Tsai et al., 2019)：GsiT 的直接理论基础，GsiT 用 1/3 参数超越其全部指标
Self-MM (Yu et al., 2021)：自监督学习框架，集成 GsiT 后性能提升但效率下降（因其原本融合层极简）
TETFN (Wang et al., 2023)：纯 MulTs 模型，嵌入 HMHG 后参数降 60.1%，大部分指标提升
ALMT (Zhang et al., 2023)：MulTs-like 架构，HMHG 嵌入后参数降 3.8%，MOSEI 上 Acc-2 提升 2.9%
GAT (Velickovic et al., 2018)：本文证明了 CMA/MHSA 与 GAT 的理论等价，是建立 HMHG 的桥梁

评分¶

新颖性: ⭐⭐⭐⭐⭐ --- 图论视角重新审视 MulTs 架构，理论证明原创性很强
实验充分度: ⭐⭐⭐⭐ --- 四个数据集 + 多基线集成 + 消融 + 权重分布分析 + 收敛分析，较为全面
写作质量: ⭐⭐⭐⭐ --- 理论推导严谨，但大量 LaTeX 公式增加阅读难度
价值: ⭐⭐⭐⭐ --- 为多模态融合提供了新的理论框架和实用的效率优化方案