Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶

会议: CVPR 2026
arXiv: 2603.12848
代码: LEYA-HSE/ABAW10-BAH
领域: 语音/音频
关键词: 矛盾/犹豫识别, 多模态融合, 原型学习, 情感计算, ABAW竞赛

一句话总结¶

提出面向第 10 届 ABAW 竞赛的多模态矛盾/犹豫（A/H）识别方法，整合场景、面部、音频和文本四种模态，通过 Transformer 融合模块和原型增强分类策略，最佳单模型 MF1 达 83.25%，最终测试集上五模型集成达 71.43%。

研究背景与动机¶

矛盾/犹豫（Ambivalence/Hesitancy, A/H）识别是情感计算中的困难任务，与决策不确定性、抵抗和行为改变动机波动密切相关。A/H 的核心难点在于：

跨模态不一致性：A/H 状态常表现为模态间的矛盾——一个人说的话、说话的方式和表情可能不一致

细粒度行为信号：不同于基本情绪（如高兴、惊讶），A/H 更加细微，需要多模态综合建模

文本主导但不充分：先前研究表明文本是最强单模态线索，但仅靠文本无法捕获 A/H 的全部表现

本文切入角度：在先前工作主要使用面部、音频和文本的基础上，额外引入场景信息，并设计基于 Transformer 的融合模块配合原型增强分类目标，在模态级嵌入上进行融合而非简单拼接。

方法详解¶

整体框架¶

四阶段流程：(1) 各模态独立训练专用编码器；(2) 提取固定维度的模态嵌入；(3) 投影到共享潜在空间；(4) Transformer 融合模块建模跨模态依赖，输出最终 A/H 预测。

关键设计¶

场景模型（VideoMAE）: 使用 VideoMAE 架构（基于 ViT，Kinetics-400 预训练），对每个视频均匀采样 16 帧，通过管状嵌入（tubelet embedding）分割为 $2 \times 16 \times 16$ 的时空补丁，Transformer 编码器建模时空依赖。场景嵌入 $h_s = \frac{1}{N}\sum_{i=1}^N z_i$ 通过全局平均池化获得。训练 15 epochs，LR=2e-5，标签平滑 0.1。
面部模型（EmotionEfficientNetB0）: YOLO 人脸检测 → 最大框选择 → 裁剪至 224×224 → EmotionEfficientNetB0（AffectNet+ 微调）提取帧级情感嵌入。关键在于统计池化聚合：$\mu = \frac{1}{F}\sum_f e_f$，$\sigma = \sqrt{\frac{1}{F}\sum_f (e_f - \mu)^2}$，最终拼接 $[\mu; \sigma]$ 作为视频级面部表示。这保留了帧间变异性信息，对捕获 A/H 中的情感波动很有价值。
音频模型（EmotionWav2Vec2.0 + Mamba）: 音频重采样至 16kHz → 预训练 EmotionWav2Vec2.0（MSP-Podcast 情感微调）提取特征序列 $T_a \times 1024$ → Mamba 编码器建模时序依赖 → 均值池化获得紧凑嵌入。关键选择：使用第 10 层特征 + Mamba（优于 Transformer），隐层 256，前馈 512，Mamba 状态大小 8，卷积核 4。
文本模型: 多种策略评估——TF-IDF + 传统分类器（Logistic Regression, CatBoost）和微调 Transformer（EmotionDistilRoBERTa, EmotionTextClassifier）。最佳配置为微调 EmotionDistilRoBERTa + MLP 分类头，达 70.02% 平均 MF1。
模态融合模型: 各模态嵌入 $x_m$ 通过模态特定投影器（线性层 + LayerNorm + GELU + Dropout）映射到共享空间 $u_m = \phi_m(x_m)$。堆叠为矩阵 $U = [u_1; ...; u_M]$，加上可学习模态嵌入 $E_{\text{mod}}$，经 $L=6$ 层 Transformer 编码器处理，最后掩码均值池化得到融合表示 $z_{\text{fused}}$。支持缺失模态处理（二值模态掩码）。
原型增强变体: 为每个类别维护 $K=16$ 个可学习原型 $\{p_{c,k}\}$，计算融合表示与原型的 log-sum-exp 相似度： $$\hat{y}_c^{\text{proto}} = \log \sum_{k=1}^K \exp\left(\frac{\tilde{z}_{\text{fused}}^\top \tilde{p}_{c,k}}{\tau}\right)$$ 原型头作为辅助训练损失（不直接产生最终预测），总损失：$\mathcal{L} = \mathcal{L}_{\text{cls}} + \lambda_{\text{proto}} \mathcal{L}_{\text{proto}} + \lambda_{\text{div}} \mathcal{L}_{\text{div}}$，$\lambda_{\text{proto}}=0.2$。

损失函数 / 训练策略¶

融合模型使用 RMSprop（LR=9.44e-5），余弦学习率调度，标签平滑 0.02，梯度裁剪 0.5。每个配置用 5 个固定随机种子（42, 2025, 7777, 12345, 31415）训练，选择平均 MF1 最高的配置。最终集成 5 个种子模型的类概率平均。

实验关键数据¶

主实验¶

模型	模态	Avg MF1	Final Test
EmotionEfficientNetB0	Face	62.67%	-
VideoMAE	Scene	61.96%	-
EmotionWav2Vec2.0+Mamba	Audio	69.03%	-
EmotionDistilRoBERTa	Text	70.02%	-
四模态融合 (无原型)	All	82.66%	68.32%
四模态融合 (原型增强)	All	83.25%	65.21%
五模型集成 (无原型)	All	81.29%	70.17%
五模型集成 (原型增强)	All	81.89%	71.43%

消融实验¶

模态组合	Avg MF1	说明
Scene + Text	80.39%	最强双模态
Face + Scene + Text	78.77%	最强三模态
Audio + Text	69.02%	音频+文本互补性有限
Face + Audio	67.40%	视觉+音频不如文本
Face + Text	63.24%	面部+文本较弱
四模态全融合	82.66%	全模态最优

关键发现¶

文本始终是最强单模态（70.02%），但场景模态虽单独较弱（61.96%）却在融合中提供最强互补（Scene+Text=80.39%）
原型增强在验证集上提升明显（83.25% vs 82.66%），但单模型在测试集上反而下降（65.21% vs 68.32%），说明过拟合风险
集成对泛化至关重要：5 模型集成将测试集性能从 65-68% 提升到 70-71%
多模态融合（82.66%）远超最佳单模态（70.02%），提升 12.64 个百分点
Mamba 时序编码器优于 Transformer 用于音频建模

亮点与洞察¶

场景模态的价值：先前 A/H 工作忽略场景信息，本文证明场景是最重要的互补模态
原型增强正则化：原型头不直接预测而是作为辅助损失，在保持主分类器灵活性的同时提供结构化正则
稳定性导向的超参搜索：用 5 个固定随机种子评估每个配置，减少选择偏差
模态缺失处理：二值模态掩码使融合模型可优雅处理部分模态缺失

局限与展望¶

验证集与测试集表现差距大（83.25% vs 65.21%），泛化能力有待加强
未建模模态间的时序交互（仅在视频级嵌入上融合）
BAH 语料库规模较小（1,427 视频），限制了模型的训练充分度

评分¶

新颖性: ⭐⭐⭐ 各组件（VideoMAE、Mamba、原型学习）都不新，贡献在于系统组合和场景模态引入
实验充分度: ⭐⭐⭐⭐ 详尽的消融覆盖所有模态组合，多种编码器和融合策略对比
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设置描述细致，可复现性高
价值: ⭐⭐⭐ 竞赛解决方案，方法论贡献有一定局限性，但实验发现有参考价值