TEXT: 文本路由稀疏专家混合模型——融合解释增强与时序对齐的多模态情感分析¶

会议: AAAI 2026
arXiv: 2512.22741
作者: Dongning Rao, Yunbiao Zeng, Zhihua Jiang, Jujian Lv 代码: fip-lab/TEXT
领域: audio_speech
关键词: 多模态情感分析, 稀疏专家混合, 时序对齐, MLLM解释增强, 门控融合

一句话总结¶

提出 TEXT 模型，利用 MLLM 为音视频生成自然语言解释来增强模态表示，设计融合 Mamba 与时序交叉注意力优点的轻量时序对齐模块，并以文本路由的稀疏专家混合进行跨模态融合，在四个 MSA 数据集上全面超越 SOTA 及 GPT-4o 等大模型。

研究背景与动机¶

问题定义¶

多模态情感分析（MSA）的任务是从短视频中同时利用文本（字幕）、音频（语调/韵律）、视觉（面部表情）三个模态，预测说话人的情感极性（正/负/中性）以及情感强度分数（连续值）。该任务在医疗健康、人机交互、欺诈检测等场景有广泛应用。核心难点在于：不同模态对情感的贡献差异巨大，甚至可能彼此矛盾——文本表达积极但语气消极，或面部表情与语言内容冲突。

已有工作的不足¶

现有 MSA 方法可分为以表示学习为核心（如 ALMT、KuDA）和以多模态融合为核心（如 DEVA）两大类。作者指出三个关键缺口：

MLLM 解释能力未被利用：LLM 时代文本的力量尚未被充分挖掘。MLLM 可以为音频和视频生成语义解释，弥补非文本模态的语义空白，但尚无工作将其引入 MSA 的特征对齐流程

时序对齐方案与 MSA 不匹配：Mamba（线性 SSM）面向长视频设计，时序交叉注意力（TCA）是通用模块，两者都没有针对 MSA 短视频中的动态情感转变做专门优化

融合策略忽视模态主导性：研究表明文本几乎总是主导模态，但现有方法缺乏利用这一先验的机制；SMoE 和门控融合两种强大技术在 MSA 领域应用不足

核心动机¶

论文从一个 MOSI 具体案例出发：在该样本中仅文本能正确判断极性，音频和视频均会误导模型。此前最优模型 ALMT 的预测偏差为 0.320，而 Qwen2.5-vl 偏差高达 1.100。这说明对齐是表示学习与融合之间的关键桥梁。如果能用 MLLM 为音视频生成解释，再将解释与原始特征对齐，就能有效纠偏。同时，利用文本的主导地位路由专家激活，可以实现更精准的跨模态融合。这构成了 TEXT 的两大核心设计思想：解释驱动对齐 + 文本路由融合。

方法详解¶

整体框架¶

TEXT 由六个模块组成，自底向上依次为：

模块④⑤⑥（并行）：三个单模态特征提取模块。文本用 BERT 编码字幕及解释，音频用 Librosa 提取特征，视频用 OpenFace 提取面部动作单元。其中音频和视频模块各内嵌一个解释对齐块
模块③：时序对齐模块，在对齐后的音频和视频表示之间建模时序依赖
模块②：文本路由的稀疏专家混合（SMoE）模块，以文本特征为路由键进行跨模态交互
模块①：门控融合（GF）+ MLP 分类器，做最终情感预测

关键设计一：两阶段解释生成¶

TEXT 为每个样本生成三部分解释（音频解释 $e_a$、视频解释 $e_v$、综合评论 $c$），采用两阶段流程：

Stage 1：使用在 EMER-fine 情感数据集上微调过的 VideoLLaMA 3 作为多模态理解器，输入原始视频，按提示词分别生成音频、视频和整体评论的原始解释。

Stage 2：使用 Qwen 3 作为推理检查器，通过 reasoning prompt 对原始解释进行验证和精炼，输出高质量的 fine explanation。

这种分工的巧妙之处：VideoLLaMA 3 擅长多模态感知但表述可能有偏，Qwen 3 的推理能力可以进一步校准，两者互补减少累积误差。

关键设计二：解释对齐块（Explanation Alignment）¶

对齐的目标是让音频/视频特征在语义空间上向解释文本靠拢。具体地，对特征 $F$ 和解释编码 $E$，通过交叉注意力实现对齐：

\[ca(F, E) = \text{softmax}((W_Q E)(W_K F)^T) W_V F\]

其中 $Q$ 来自解释、$K/V$ 来自原始模态特征，让解释主导注意力分配。所有单模态编码统一为 50 个 token + 1 个可学习聚合 token，最终得到 51 维嵌入。对齐后的表示记为 $E_t$（文本）、$E_a$（音频）、$E_v$（视频）。

关键设计三：时序对齐块（Temporal Alignment）¶

这是论文最关键的技术创新。作者设计了一个不依赖 CA 或 SSM 的轻量时序对齐块，比 Mamba 和 TCA 都更简洁，但融合了两者的优势。核心计算如下：

\[\text{left} = E_a \oplus L(\text{Conv1d}(LN(E_a)) \otimes \sigma(LN(E_v)))$$ $$\text{right} = E_v \oplus L(\text{Conv1d}(LN(E_v)) \otimes \sigma(LN(E_a)))$$ $$E_{av} = \text{concat}(\text{left}, \text{right})\]

设计要点：(1) Conv1d 负责捕获局部时序模式（类似 Mamba 的序列建模）；(2) SiLU 门控的逐元素乘法实现模态间的选择性交互（类似注意力的加权）；(3) 残差连接保留原始信息；(4) 对称结构让音频→视频和视频→音频的信息流同等重要。这种设计避免了 SSM 的复杂递推和 CA 的二次复杂度，同时保留了时序建模能力。

关键设计四：文本路由 SMoE¶

利用文本在 MSA 中的主导地位，TEXT 用文本特征 $E_t$ 作为路由键，决定激活哪些专家来处理时序对齐后的音视频嵌入 $E_{av}$。形式化为 $\text{SMoE}(E_t, E_{av})$。直觉上，文本中的情感关键词（如"disappointing""excellent"）会激活对应情感主题的专家，使得专家网络具备主题敏感性。

损失函数¶

作为回归问题，TEXT 的基本优化目标为 MSE loss，预测情感强度分数 $\hat{y}$ 与标注值之间的均方误差。门控融合分类器的输出为：

\[\hat{y} = L(\sigma(\text{SMoE}(E_t, E_{av})))\]

其中 $\sigma$ 为 Sigmoid 门控，$L$ 为线性层。

实验关键数据¶

表1：四模型在 MOSI 和 MOSEI 上的主要对比¶

模型	MOSI Acc-2	MOSI MAE↓	MOSI Corr	MOSEI Acc-2	MOSEI MAE↓	MOSEI Corr
ALMT	83.10/85.23	0.716	0.773	82.39/85.87	0.542	0.767
KuDA	84.40/86.43	0.705	0.795	83.26/86.46	0.529	0.776
DEVA	84.40/86.29	0.730	0.787	83.26/86.13	0.541	0.769
GPT-4o	85.71/86.74	0.682	0.823	84.77/86.08	0.637	0.744
Qwen2.5-vl	83.09/83.38	1.129	0.677	84.14/84.59	1.007	0.587
TEXT	86.44/88.72	0.666	0.829	85.02/86.57	0.528	0.786

TEXT 在 MOSI 上 Acc-2 达到 88.72%（超 GPT-4o 约 2%），MAE 降至 0.666；MOSEI 上 MAE 降至 0.528，优于所有对比模型。在 CH-SIMS 上 MAE 从次优的 0.408（KuDA）降至 0.353，降幅 13.5%。

表2：MOSEI 上的消融实验¶

设置	Acc-2	Acc-7	MAE↓	Corr
TEXT（完整）	85.02/86.57	52.29	0.528	0.786
去掉解释	83.60/86.02	50.35	0.569	0.776
仅文本（有解释）	83.49/86.43	52.84	0.535	0.771
EA → Linear	84.25/86.57	48.21	0.577	0.762
TA → 拼接	83.77/85.42	48.40	0.580	0.749
TA → Mamba	84.80/86.41	50.65	0.562	0.780
TA → TCA	83.41/86.43	51.38	0.565	0.781
SMoE → Transformer	83.73/85.33	50.29	0.573	0.769
去掉门控融合	84.40/86.35	49.07	0.571	0.780

消融结论：时序对齐替换为拼接后 MAE 从 0.528 升至 0.580（最大退化），证明其是 MAE 改善的关键因素；解释移除导致约 2% 的全面下降；SMoE 的贡献与解释相当。

亮点与洞察¶

用 MLLM 做数据增强而非端到端推理：与直接用 GPT-4o 做 MSA 不同，TEXT 巧妙地用 MLLM 生成解释文本作为辅助信号，再用 BERT 编码后参与特征对齐。这既利用了 MLLM 的语义理解能力，又避免了其在回归任务上的不稳定性（Qwen2.5-vl 的 MAE 高达 1.129）
时序对齐模块的极简设计：仅用 Conv1d + 线性层 + 门控，不引入注意力或 SSM，却在消融中优于 Mamba 和 TCA。说明针对短视频 MSA，简单的局部时序卷积 + 跨模态门控已经足够
文本主导的实证发现：消融显示单独使用文本（有解释）的 Acc-7 甚至略高于完整模型（52.84% vs 52.29%），说明音视频的贡献更多在回归精度（MAE）而非分类正确性上
定性案例极具说服力：在一个具体样本上，TEXT 预测偏差仅 0.010（标注 1.400 vs 预测 1.390），而 GPT-4o 偏差 0.600、Qwen2.5-vl 偏差 1.100。去掉解释后音频偏差从 0.380 飙升至 1.440，清晰验证了解释对齐的价值

局限性¶

依赖多个 MLLM 的级联：解释生成需要 VideoLLaMA 3 + Qwen 3 两阶段，这引入了累积误差风险和较高的推理开销，论文自身也承认这是主要局限
仅覆盖中英文：MLLM 的解释质量取决于语言能力，论文仅在中英文数据集上验证，向其他语言扩展的效果未知
MLLMs 的数据泄露风险：论文提到 MLLM 可能已记忆了部分数据集（如 GPT-4o 在英文数据集上表现异常好但中文数据集上大幅下降），这对基线公平性有影响
解释生成的计算成本缺失：论文未报告 MLLM 解释生成阶段的时间和计算资源需求，实际部署成本不明

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐
写作质量	⭐⭐⭐
综合评分	⭐⭐⭐⭐

解释对齐和文本路由 SMoE 的组合思路新颖且有效，消融实验充分有说服力。扣分点在于：写作中部分公式渲染问题较多、MLLM 级联的计算成本未讨论、且文本单模态在部分指标上已接近完整模型性能，暗示多模态融合的增益空间不大。