Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition¶

会议: AAAI 2026
arXiv: 2512.11239
代码: GitHub
领域: 多模态VLM
关键词: 不完整多模态, 情感识别, 提示学习, 模态平衡, 知识传播

一句话总结¶

提出 Cross-modal Prompting (ComP) 方法，通过渐进式提示生成+跨模态知识传播+动态调度器来解决不完整多模态情感识别中的模态不平衡问题，在 4 个数据集、 7 种缺失率下均达到 SOTA。

领域现状：多模态情感识别（MER）利用音频、文本、视频等多源信息，但实际场景中常出现模态缺失（背景噪声导致音频不可用、语音识别失败等）。

现有痛点： - 模态性能差距：不同模态的识别能力差异巨大 - 模态欠优化：部分模态在多模态共同训练后性能反而下降（比单模态训练还差） - 现有 IMER 方法要么恢复缺失数据（消耗大、不一定有用），要么学统一表示但忽略模态不平衡

核心矛盾：如何在模态缺失的情况下，既处理不完整性又解决模态不平衡？

本文目标 通过跨模态提示学习同时解决缺失处理和模态平衡。

切入角度：不恢复缺失数据，而是将每个模态的信息压缩为提示（prompt），传播到其他模态来增强任务相关的一致性信息，同时通过动态调度达到平衡。

核心 idea：用渐进式提示生成压缩跨模态一致性信息，通过知识传播模块增强各模态的任务相关特征，增强而非恢复。

两阶段训练： 1. 第一阶段：各模态独立训练编码器 + 分类器 2. 第二阶段：提示生成→知识传播→多模态协作融合

渐进式提示生成（PG）:
- 功能：将每个模态的特征压缩为代表性且一致的提示
- 核心思路：全局输入压缩为少量原型，配合动态梯度调制器避免原型被简单样本主导，再与上下文特征融合得到低维提示
- 设计动机：提示应包含跨模态一致的情感信息，而非模态特有的噪声
跨模态知识传播（KP）:
- 功能：将其他模态的提示传入当前模态，增强任务相关特征
- 核心思路：将模态特征 \(\mathbf{Z}_l^u\) 与两个跨模态提示 \(\mathbf{P}_l^{vu}, \mathbf{P}_l^{wu}\) 拼接→线性投影压缩→多头自注意力增强→投影回原始空间
- 巧妙之处：缺失实例在 MSA 中被 mask，但通过跨模态提示的传播自然地“重建”了缺失数据的信息
多模态协作模块（Coordinator）:
- 动态重新加权各模态的输出，作为平衡策略的补充

\(\mathcal{L} = \sum_{u} \mathcal{L}_{enc}(\mathbf{Z}^u, \hat{\mathbf{X}}^u) + \sum_{u} \mathcal{L}_{task}(\mathbf{Y}^u, \mathbf{Y})\)

方法	0.1 ACC	0.3 ACC	0.5 ACC	0.7 ACC
GCNet	74.82	74.49	72.67	71.00
MoMKE	76.70	73.47	69.73	66.52
SDR-GNN	78.48	78.22	75.47	70.52
ComP	80.66	78.37	75.62	73.41

ComP 在所有缺失率下均达到最优，在高缺失率（0.7）下优势更明显（+2.89%）。