跳转至

TEXT: 文本路由稀疏专家混合模型——融合解释增强与时序对齐的多模态情感分析

会议: AAAI 2026
arXiv: 2512.22741
作者: Dongning Rao, Yunbiao Zeng, Zhihua Jiang, Jujian Lv 代码: fip-lab/TEXT
领域: audio_speech
关键词: 多模态情感分析, 稀疏专家混合, 时序对齐, MLLM解释增强, 门控融合

一句话总结

提出 TEXT 模型,利用 MLLM 为音视频生成自然语言解释来增强模态表示,设计融合 Mamba 与时序交叉注意力优点的轻量时序对齐模块,并以文本路由的稀疏专家混合进行跨模态融合,在四个 MSA 数据集上全面超越 SOTA 及 GPT-4o 等大模型。

研究背景与动机

问题定义

多模态情感分析(MSA)的任务是从短视频中同时利用文本(字幕)、音频(语调/韵律)、视觉(面部表情)三个模态,预测说话人的情感极性(正/负/中性)以及情感强度分数(连续值)。该任务在医疗健康、人机交互、欺诈检测等场景有广泛应用。核心难点在于:不同模态对情感的贡献差异巨大,甚至可能彼此矛盾——文本表达积极但语气消极,或面部表情与语言内容冲突。

已有工作的不足

现有 MSA 方法可分为以表示学习为核心(如 ALMT、KuDA)和以多模态融合为核心(如 DEVA)两大类。作者指出三个关键缺口:

MLLM 解释能力未被利用:LLM 时代文本的力量尚未被充分挖掘。MLLM 可以为音频和视频生成语义解释,弥补非文本模态的语义空白,但尚无工作将其引入 MSA 的特征对齐流程

时序对齐方案与 MSA 不匹配:Mamba(线性 SSM)面向长视频设计,时序交叉注意力(TCA)是通用模块,两者都没有针对 MSA 短视频中的动态情感转变做专门优化

融合策略忽视模态主导性:研究表明文本几乎总是主导模态,但现有方法缺乏利用这一先验的机制;SMoE 和门控融合两种强大技术在 MSA 领域应用不足

核心动机

论文从一个 MOSI 具体案例出发:在该样本中仅文本能正确判断极性,音频和视频均会误导模型。此前最优模型 ALMT 的预测偏差为 0.320,而 Qwen2.5-vl 偏差高达 1.100。这说明对齐是表示学习与融合之间的关键桥梁。如果能用 MLLM 为音视频生成解释,再将解释与原始特征对齐,就能有效纠偏。同时,利用文本的主导地位路由专家激活,可以实现更精准的跨模态融合。这构成了 TEXT 的两大核心设计思想:解释驱动对齐 + 文本路由融合

方法详解

整体框架

TEXT 由六个模块组成,自底向上依次为:

  • 模块④⑤⑥(并行):三个单模态特征提取模块。文本用 BERT 编码字幕及解释,音频用 Librosa 提取特征,视频用 OpenFace 提取面部动作单元。其中音频和视频模块各内嵌一个解释对齐块
  • 模块③:时序对齐模块,在对齐后的音频和视频表示之间建模时序依赖
  • 模块②:文本路由的稀疏专家混合(SMoE)模块,以文本特征为路由键进行跨模态交互
  • 模块①:门控融合(GF)+ MLP 分类器,做最终情感预测

关键设计一:两阶段解释生成

TEXT 为每个样本生成三部分解释(音频解释 \(e_a\)、视频解释 \(e_v\)、综合评论 \(c\)),采用两阶段流程:

Stage 1:使用在 EMER-fine 情感数据集上微调过的 VideoLLaMA 3 作为多模态理解器,输入原始视频,按提示词分别生成音频、视频和整体评论的原始解释。

Stage 2:使用 Qwen 3 作为推理检查器,通过 reasoning prompt 对原始解释进行验证和精炼,输出高质量的 fine explanation。

这种分工的巧妙之处:VideoLLaMA 3 擅长多模态感知但表述可能有偏,Qwen 3 的推理能力可以进一步校准,两者互补减少累积误差。

关键设计二:解释对齐块(Explanation Alignment)

对齐的目标是让音频/视频特征在语义空间上向解释文本靠拢。具体地,对特征 \(F\) 和解释编码 \(E\),通过交叉注意力实现对齐:

\[ca(F, E) = \text{softmax}((W_Q E)(W_K F)^T) W_V F\]

其中 \(Q\) 来自解释、\(K/V\) 来自原始模态特征,让解释主导注意力分配。所有单模态编码统一为 50 个 token + 1 个可学习聚合 token,最终得到 51 维嵌入。对齐后的表示记为 \(E_t\)(文本)、\(E_a\)(音频)、\(E_v\)(视频)。

关键设计三:时序对齐块(Temporal Alignment)

这是论文最关键的技术创新。作者设计了一个不依赖 CA 或 SSM 的轻量时序对齐块,比 Mamba 和 TCA 都更简洁,但融合了两者的优势。核心计算如下:

\[\text{left} = E_a \oplus L(\text{Conv1d}(LN(E_a)) \otimes \sigma(LN(E_v)))$$ $$\text{right} = E_v \oplus L(\text{Conv1d}(LN(E_v)) \otimes \sigma(LN(E_a)))$$ $$E_{av} = \text{concat}(\text{left}, \text{right})\]

设计要点:(1) Conv1d 负责捕获局部时序模式(类似 Mamba 的序列建模);(2) SiLU 门控的逐元素乘法实现模态间的选择性交互(类似注意力的加权);(3) 残差连接保留原始信息;(4) 对称结构让音频→视频和视频→音频的信息流同等重要。这种设计避免了 SSM 的复杂递推和 CA 的二次复杂度,同时保留了时序建模能力。

关键设计四:文本路由 SMoE

利用文本在 MSA 中的主导地位,TEXT 用文本特征 \(E_t\) 作为路由键,决定激活哪些专家来处理时序对齐后的音视频嵌入 \(E_{av}\)。形式化为 \(\text{SMoE}(E_t, E_{av})\)。直觉上,文本中的情感关键词(如"disappointing""excellent")会激活对应情感主题的专家,使得专家网络具备主题敏感性。

损失函数

作为回归问题,TEXT 的基本优化目标为 MSE loss,预测情感强度分数 \(\hat{y}\) 与标注值之间的均方误差。门控融合分类器的输出为:

\[\hat{y} = L(\sigma(\text{SMoE}(E_t, E_{av})))\]

其中 \(\sigma\) 为 Sigmoid 门控,\(L\) 为线性层。

实验关键数据

表1:四模型在 MOSI 和 MOSEI 上的主要对比

模型 MOSI Acc-2 MOSI MAE↓ MOSI Corr MOSEI Acc-2 MOSEI MAE↓ MOSEI Corr
ALMT 83.10/85.23 0.716 0.773 82.39/85.87 0.542 0.767
KuDA 84.40/86.43 0.705 0.795 83.26/86.46 0.529 0.776
DEVA 84.40/86.29 0.730 0.787 83.26/86.13 0.541 0.769
GPT-4o 85.71/86.74 0.682 0.823 84.77/86.08 0.637 0.744
Qwen2.5-vl 83.09/83.38 1.129 0.677 84.14/84.59 1.007 0.587
TEXT 86.44/88.72 0.666 0.829 85.02/86.57 0.528 0.786

TEXT 在 MOSI 上 Acc-2 达到 88.72%(超 GPT-4o 约 2%),MAE 降至 0.666;MOSEI 上 MAE 降至 0.528,优于所有对比模型。在 CH-SIMS 上 MAE 从次优的 0.408(KuDA)降至 0.353,降幅 13.5%。

表2:MOSEI 上的消融实验

设置 Acc-2 Acc-7 MAE↓ Corr
TEXT(完整) 85.02/86.57 52.29 0.528 0.786
去掉解释 83.60/86.02 50.35 0.569 0.776
仅文本(有解释) 83.49/86.43 52.84 0.535 0.771
EA → Linear 84.25/86.57 48.21 0.577 0.762
TA → 拼接 83.77/85.42 48.40 0.580 0.749
TA → Mamba 84.80/86.41 50.65 0.562 0.780
TA → TCA 83.41/86.43 51.38 0.565 0.781
SMoE → Transformer 83.73/85.33 50.29 0.573 0.769
去掉门控融合 84.40/86.35 49.07 0.571 0.780

消融结论:时序对齐替换为拼接后 MAE 从 0.528 升至 0.580(最大退化),证明其是 MAE 改善的关键因素;解释移除导致约 2% 的全面下降;SMoE 的贡献与解释相当。

亮点与洞察

  1. 用 MLLM 做数据增强而非端到端推理:与直接用 GPT-4o 做 MSA 不同,TEXT 巧妙地用 MLLM 生成解释文本作为辅助信号,再用 BERT 编码后参与特征对齐。这既利用了 MLLM 的语义理解能力,又避免了其在回归任务上的不稳定性(Qwen2.5-vl 的 MAE 高达 1.129)
  2. 时序对齐模块的极简设计:仅用 Conv1d + 线性层 + 门控,不引入注意力或 SSM,却在消融中优于 Mamba 和 TCA。说明针对短视频 MSA,简单的局部时序卷积 + 跨模态门控已经足够
  3. 文本主导的实证发现:消融显示单独使用文本(有解释)的 Acc-7 甚至略高于完整模型(52.84% vs 52.29%),说明音视频的贡献更多在回归精度(MAE)而非分类正确性上
  4. 定性案例极具说服力:在一个具体样本上,TEXT 预测偏差仅 0.010(标注 1.400 vs 预测 1.390),而 GPT-4o 偏差 0.600、Qwen2.5-vl 偏差 1.100。去掉解释后音频偏差从 0.380 飙升至 1.440,清晰验证了解释对齐的价值

局限性

  1. 依赖多个 MLLM 的级联:解释生成需要 VideoLLaMA 3 + Qwen 3 两阶段,这引入了累积误差风险和较高的推理开销,论文自身也承认这是主要局限
  2. 仅覆盖中英文:MLLM 的解释质量取决于语言能力,论文仅在中英文数据集上验证,向其他语言扩展的效果未知
  3. MLLMs 的数据泄露风险:论文提到 MLLM 可能已记忆了部分数据集(如 GPT-4o 在英文数据集上表现异常好但中文数据集上大幅下降),这对基线公平性有影响
  4. 解释生成的计算成本缺失:论文未报告 MLLM 解释生成阶段的时间和计算资源需求,实际部署成本不明

相关工作与启发

  • ALMT (Zhang et al., 2023):学习不相关/冲突抑制表示,用 Transformer 统一模态形式。TEXT 的解释对齐可看作对 ALMT 的增强版本
  • KuDA (Feng et al., 2024):提出主导模态增强策略。TEXT 继承了文本主导的思想,但用 SMoE 的方式更精细地利用
  • DEVA (Wu et al., 2025):文本引导渐进融合 + 情感描述生成。与 TEXT 的解释增强思路类似但实现不同
  • Mamba (Gu & Dao, 2024):线性 SSM 模型。TEXT 的时序对齐可以看作 Mamba 卷积路径的简化版
  • 启发:将 MLLM 作为"语义桥梁"而非直接预测器的思路,可以推广到其他多模态回归任务(如情绪强度估计、疼痛评估等)。轻量时序模块的成功也提示在短序列场景下不需要复杂的序列建模

评分

维度 分数
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐
综合评分 ⭐⭐⭐⭐

解释对齐和文本路由 SMoE 的组合思路新颖且有效,消融实验充分有说服力。扣分点在于:写作中部分公式渲染问题较多、MLLM 级联的计算成本未讨论、且文本单模态在部分指标上已接近完整模型性能,暗示多模态融合的增益空间不大。

相关论文