TEXT: 文本路由稀疏专家混合模型——融合解释增强与时序对齐的多模态情感分析¶
会议: AAAI 2026
arXiv: 2512.22741
作者: Dongning Rao, Yunbiao Zeng, Zhihua Jiang, Jujian Lv
代码: fip-lab/TEXT
领域: audio_speech
关键词: 多模态情感分析, 稀疏专家混合, 时序对齐, MLLM解释增强, 门控融合
一句话总结¶
提出 TEXT 模型,利用 MLLM 为音视频生成自然语言解释来增强模态表示,设计融合 Mamba 与时序交叉注意力优点的轻量时序对齐模块,并以文本路由的稀疏专家混合进行跨模态融合,在四个 MSA 数据集上全面超越 SOTA 及 GPT-4o 等大模型。
研究背景与动机¶
问题定义¶
多模态情感分析(MSA)的任务是从短视频中同时利用文本(字幕)、音频(语调/韵律)、视觉(面部表情)三个模态,预测说话人的情感极性(正/负/中性)以及情感强度分数(连续值)。该任务在医疗健康、人机交互、欺诈检测等场景有广泛应用。核心难点在于:不同模态对情感的贡献差异巨大,甚至可能彼此矛盾——文本表达积极但语气消极,或面部表情与语言内容冲突。
已有工作的不足¶
现有 MSA 方法可分为以表示学习为核心(如 ALMT、KuDA)和以多模态融合为核心(如 DEVA)两大类。作者指出三个关键缺口:
MLLM 解释能力未被利用:LLM 时代文本的力量尚未被充分挖掘。MLLM 可以为音频和视频生成语义解释,弥补非文本模态的语义空白,但尚无工作将其引入 MSA 的特征对齐流程
时序对齐方案与 MSA 不匹配:Mamba(线性 SSM)面向长视频设计,时序交叉注意力(TCA)是通用模块,两者都没有针对 MSA 短视频中的动态情感转变做专门优化
融合策略忽视模态主导性:研究表明文本几乎总是主导模态,但现有方法缺乏利用这一先验的机制;SMoE 和门控融合两种强大技术在 MSA 领域应用不足
核心动机¶
论文从一个 MOSI 具体案例出发:在该样本中仅文本能正确判断极性,音频和视频均会误导模型。此前最优模型 ALMT 的预测偏差为 0.320,而 Qwen2.5-vl 偏差高达 1.100。这说明对齐是表示学习与融合之间的关键桥梁。如果能用 MLLM 为音视频生成解释,再将解释与原始特征对齐,就能有效纠偏。同时,利用文本的主导地位路由专家激活,可以实现更精准的跨模态融合。这构成了 TEXT 的两大核心设计思想:解释驱动对齐 + 文本路由融合。
方法详解¶
整体框架¶
TEXT 由六个模块组成,自底向上依次为:
- 模块④⑤⑥(并行):三个单模态特征提取模块。文本用 BERT 编码字幕及解释,音频用 Librosa 提取特征,视频用 OpenFace 提取面部动作单元。其中音频和视频模块各内嵌一个解释对齐块
- 模块③:时序对齐模块,在对齐后的音频和视频表示之间建模时序依赖
- 模块②:文本路由的稀疏专家混合(SMoE)模块,以文本特征为路由键进行跨模态交互
- 模块①:门控融合(GF)+ MLP 分类器,做最终情感预测
关键设计一:两阶段解释生成¶
TEXT 为每个样本生成三部分解释(音频解释 \(e_a\)、视频解释 \(e_v\)、综合评论 \(c\)),采用两阶段流程:
Stage 1:使用在 EMER-fine 情感数据集上微调过的 VideoLLaMA 3 作为多模态理解器,输入原始视频,按提示词分别生成音频、视频和整体评论的原始解释。
Stage 2:使用 Qwen 3 作为推理检查器,通过 reasoning prompt 对原始解释进行验证和精炼,输出高质量的 fine explanation。
这种分工的巧妙之处:VideoLLaMA 3 擅长多模态感知但表述可能有偏,Qwen 3 的推理能力可以进一步校准,两者互补减少累积误差。
关键设计二:解释对齐块(Explanation Alignment)¶
对齐的目标是让音频/视频特征在语义空间上向解释文本靠拢。具体地,对特征 \(F\) 和解释编码 \(E\),通过交叉注意力实现对齐:
其中 \(Q\) 来自解释、\(K/V\) 来自原始模态特征,让解释主导注意力分配。所有单模态编码统一为 50 个 token + 1 个可学习聚合 token,最终得到 51 维嵌入。对齐后的表示记为 \(E_t\)(文本)、\(E_a\)(音频)、\(E_v\)(视频)。
关键设计三:时序对齐块(Temporal Alignment)¶
这是论文最关键的技术创新。作者设计了一个不依赖 CA 或 SSM 的轻量时序对齐块,比 Mamba 和 TCA 都更简洁,但融合了两者的优势。核心计算如下:
设计要点:(1) Conv1d 负责捕获局部时序模式(类似 Mamba 的序列建模);(2) SiLU 门控的逐元素乘法实现模态间的选择性交互(类似注意力的加权);(3) 残差连接保留原始信息;(4) 对称结构让音频→视频和视频→音频的信息流同等重要。这种设计避免了 SSM 的复杂递推和 CA 的二次复杂度,同时保留了时序建模能力。
关键设计四:文本路由 SMoE¶
利用文本在 MSA 中的主导地位,TEXT 用文本特征 \(E_t\) 作为路由键,决定激活哪些专家来处理时序对齐后的音视频嵌入 \(E_{av}\)。形式化为 \(\text{SMoE}(E_t, E_{av})\)。直觉上,文本中的情感关键词(如"disappointing""excellent")会激活对应情感主题的专家,使得专家网络具备主题敏感性。
损失函数¶
作为回归问题,TEXT 的基本优化目标为 MSE loss,预测情感强度分数 \(\hat{y}\) 与标注值之间的均方误差。门控融合分类器的输出为:
其中 \(\sigma\) 为 Sigmoid 门控,\(L\) 为线性层。
实验关键数据¶
表1:四模型在 MOSI 和 MOSEI 上的主要对比¶
| 模型 | MOSI Acc-2 | MOSI MAE↓ | MOSI Corr | MOSEI Acc-2 | MOSEI MAE↓ | MOSEI Corr |
|---|---|---|---|---|---|---|
| ALMT | 83.10/85.23 | 0.716 | 0.773 | 82.39/85.87 | 0.542 | 0.767 |
| KuDA | 84.40/86.43 | 0.705 | 0.795 | 83.26/86.46 | 0.529 | 0.776 |
| DEVA | 84.40/86.29 | 0.730 | 0.787 | 83.26/86.13 | 0.541 | 0.769 |
| GPT-4o | 85.71/86.74 | 0.682 | 0.823 | 84.77/86.08 | 0.637 | 0.744 |
| Qwen2.5-vl | 83.09/83.38 | 1.129 | 0.677 | 84.14/84.59 | 1.007 | 0.587 |
| TEXT | 86.44/88.72 | 0.666 | 0.829 | 85.02/86.57 | 0.528 | 0.786 |
TEXT 在 MOSI 上 Acc-2 达到 88.72%(超 GPT-4o 约 2%),MAE 降至 0.666;MOSEI 上 MAE 降至 0.528,优于所有对比模型。在 CH-SIMS 上 MAE 从次优的 0.408(KuDA)降至 0.353,降幅 13.5%。
表2:MOSEI 上的消融实验¶
| 设置 | Acc-2 | Acc-7 | MAE↓ | Corr |
|---|---|---|---|---|
| TEXT(完整) | 85.02/86.57 | 52.29 | 0.528 | 0.786 |
| 去掉解释 | 83.60/86.02 | 50.35 | 0.569 | 0.776 |
| 仅文本(有解释) | 83.49/86.43 | 52.84 | 0.535 | 0.771 |
| EA → Linear | 84.25/86.57 | 48.21 | 0.577 | 0.762 |
| TA → 拼接 | 83.77/85.42 | 48.40 | 0.580 | 0.749 |
| TA → Mamba | 84.80/86.41 | 50.65 | 0.562 | 0.780 |
| TA → TCA | 83.41/86.43 | 51.38 | 0.565 | 0.781 |
| SMoE → Transformer | 83.73/85.33 | 50.29 | 0.573 | 0.769 |
| 去掉门控融合 | 84.40/86.35 | 49.07 | 0.571 | 0.780 |
消融结论:时序对齐替换为拼接后 MAE 从 0.528 升至 0.580(最大退化),证明其是 MAE 改善的关键因素;解释移除导致约 2% 的全面下降;SMoE 的贡献与解释相当。
亮点与洞察¶
- 用 MLLM 做数据增强而非端到端推理:与直接用 GPT-4o 做 MSA 不同,TEXT 巧妙地用 MLLM 生成解释文本作为辅助信号,再用 BERT 编码后参与特征对齐。这既利用了 MLLM 的语义理解能力,又避免了其在回归任务上的不稳定性(Qwen2.5-vl 的 MAE 高达 1.129)
- 时序对齐模块的极简设计:仅用 Conv1d + 线性层 + 门控,不引入注意力或 SSM,却在消融中优于 Mamba 和 TCA。说明针对短视频 MSA,简单的局部时序卷积 + 跨模态门控已经足够
- 文本主导的实证发现:消融显示单独使用文本(有解释)的 Acc-7 甚至略高于完整模型(52.84% vs 52.29%),说明音视频的贡献更多在回归精度(MAE)而非分类正确性上
- 定性案例极具说服力:在一个具体样本上,TEXT 预测偏差仅 0.010(标注 1.400 vs 预测 1.390),而 GPT-4o 偏差 0.600、Qwen2.5-vl 偏差 1.100。去掉解释后音频偏差从 0.380 飙升至 1.440,清晰验证了解释对齐的价值
局限性¶
- 依赖多个 MLLM 的级联:解释生成需要 VideoLLaMA 3 + Qwen 3 两阶段,这引入了累积误差风险和较高的推理开销,论文自身也承认这是主要局限
- 仅覆盖中英文:MLLM 的解释质量取决于语言能力,论文仅在中英文数据集上验证,向其他语言扩展的效果未知
- MLLMs 的数据泄露风险:论文提到 MLLM 可能已记忆了部分数据集(如 GPT-4o 在英文数据集上表现异常好但中文数据集上大幅下降),这对基线公平性有影响
- 解释生成的计算成本缺失:论文未报告 MLLM 解释生成阶段的时间和计算资源需求,实际部署成本不明
相关工作与启发¶
- ALMT (Zhang et al., 2023):学习不相关/冲突抑制表示,用 Transformer 统一模态形式。TEXT 的解释对齐可看作对 ALMT 的增强版本
- KuDA (Feng et al., 2024):提出主导模态增强策略。TEXT 继承了文本主导的思想,但用 SMoE 的方式更精细地利用
- DEVA (Wu et al., 2025):文本引导渐进融合 + 情感描述生成。与 TEXT 的解释增强思路类似但实现不同
- Mamba (Gu & Dao, 2024):线性 SSM 模型。TEXT 的时序对齐可以看作 Mamba 卷积路径的简化版
- 启发:将 MLLM 作为"语义桥梁"而非直接预测器的思路,可以推广到其他多模态回归任务(如情绪强度估计、疼痛评估等)。轻量时序模块的成功也提示在短序列场景下不需要复杂的序列建模
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐ |
| 综合评分 | ⭐⭐⭐⭐ |
解释对齐和文本路由 SMoE 的组合思路新颖且有效,消融实验充分有说服力。扣分点在于:写作中部分公式渲染问题较多、MLLM 级联的计算成本未讨论、且文本单模态在部分指标上已接近完整模型性能,暗示多模态融合的增益空间不大。
相关论文¶
- [ICLR 2026] Latent Speech-Text Transformer
- [ACL 2026] Computational Narrative Understanding for Expressive Text-to-Speech
- [CVPR 2026] OmniSonic: Towards Universal and Holistic Audio Generation from Video and Text
- [ACL 2025] Zero-Shot Text-to-Speech for Vietnamese
- [ACL 2025] SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models