Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶
会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.12848
代码: 有(公开)
领域: 视频理解 / 情感计算
关键词: 犹豫/矛盾识别, 多模态融合, 原型增强分类, Mamba, ABAW竞赛
一句话总结¶
提出四模态(场景VideoMAE+人脸EfficientNetB0+音频Wav2Vec2.0+Mamba+文本EmotionDistilRoBERTa)融合管线,通过原型增强Transformer融合模块将模态嵌入投影到共享空间并结合原型分类辅助损失,在BAH测试集上以5模型集成达到71.43% Macro F1。
背景与动机¶
犹豫/矛盾(Ambivalence/Hesitancy, A/H)是行为改变领域的关键信号——与决策不确定性、动机波动密切相关。不同于基本情绪,A/H表现微妙、常通过跨模态不一致显现(如说的话积极但表情犹豫),因此天然需要多模态建模。先前ABAW竞赛工作表明文本是最强单模态线索,但有效融合仍需专门设计来捕捉跨模态矛盾信号。
核心问题¶
如何从视频中有效识别犹豫/矛盾状态?核心挑战在于A/H信号跨模态分布不均且常表现为模态间的不一致性——简单融合可能埋没这些信号。
方法详解¶
整体框架¶
两阶段策略:先独立训练四路单模态模型(场景/人脸/音频/文本)提取固定维度嵌入,再将四个嵌入通过Transformer融合模型聚合为视频级A/H二分类预测。
关键设计¶
- 四路专用单模态编码器:
- 场景: VideoMAE(ViT-based, Kinetics-400预训练)处理16帧序列,全局平均池化得\(h_s\)
- 人脸: YOLO人脸检测 → EfficientNetB0(AffectNet+微调)提取逐帧情感嵌入 → 统计池化(均值+方差拼接)
- 音频: EmotionWav2Vec2.0(MSP-Podcast微调, 第10层) → Mamba编码器(state size 8, conv kernel 4) → 时间平均池化
-
文本: EmotionDistilRoBERTa直接微调做A/H分类。TF-IDF+CatBoost/LogReg也作为备选
-
Transformer融合模型: 各模态嵌入经模态专用投影器(线性+LayerNorm+GELU+Dropout)映射到共享128维空间 → 加可学习模态嵌入\(E_{mod}\) → 6层Transformer编码器(4头, FFN扩展因子6) → masked mean pooling得融合表示。支持缺失模态(binary mask屏蔽)。
-
原型增强分类头: 维护每类16个可学习原型\(p_{c,k}\),融合表示与原型的L2归一化余弦相似度(温度\(\tau=0.3\))产生辅助分类损失。总损失\(\mathcal{L} = \mathcal{L}_{cls} + 0.2\mathcal{L}_{proto}\)。原型头在训练时提供额外正则,推理时由主线性分类器输出最终预测。
损失函数 / 训练策略¶
- 训练:RMSprop, lr=9.44e-5, weight decay=5.55e-4, LS=0.02, gradient clipping=0.5, cosine LR scheduler
- 稳定性优化:Optuna做超参搜索,5个固定随机种子(42/2025/7777/12345/31415)训练并平均,减少初始化敏感性
- 集成:最终预测为5个种子模型的类概率平均
实验关键数据¶
| ID | 配置 | Dev MF1 | Valid MF1 | Avg MF1 | Final Test |
|---|---|---|---|---|---|
| 7 | Text: EmotionDistilRoBERTa微调 | 68.54 | 71.49 | 70.02 | - |
| 3 | Audio: Wav2Vec2.0+Mamba | 67.20 | 70.87 | 69.03 | - |
| 1 | Face: EmotionEfficientNetB0 | 65.29 | 60.05 | 62.67 | - |
| 2 | Scene: VideoMAE | 61.71 | 62.21 | 61.96 | - |
| 11 | 四模态融合(无原型) | 85.38 | 79.94 | 82.66 | 68.32 |
| 12 | 四模态融合(原型增强) | 83.79 | 82.72 | 83.25 | 65.21 |
| 14 | 5模型集成(原型增强) | 83.00 | 80.77 | 81.89 | 71.43 |
消融实验要点¶
- 单模态最强是文本(70.02%),其次音频(69.03%),人脸和场景相对弱(62-63%)
- 最强双模态组合是场景+文本(80.39%)——场景提供上下文,文本提供语义
- 三模态(人脸+场景+文本 78.77%)不如四模态(82.66%)
- 原型增强在dev/valid上提升(83.25 vs 82.66)但单模型final test反而略低(65.21 vs 68.32)——说明原型增强更依赖集成来稳定
- 集成是final test成功的关键:单模型68.32→集成71.43(+3.11%)
- Mamba音频编码器优于Transformer替代方案
亮点¶
- 四模态全覆盖(场景全局+人脸局部+语音韵律+文本语义),比前人多引入了场景模态
- 原型增强机制提供了隐式聚类正则,使融合表示更紧凑
- 5种子训练+Optuna超参搜索的稳定性工程值得借鉴
- Mamba在音频时序建模中的应用效果好(Kinetics级以上数据不必用Transformer)
局限性 / 可改进方向¶
- Dev/Valid和Final Test间性能差距大(83.25→71.43)——泛化性不足,可能因BAH语料规模有限(1427视频)
- 原型头单模型反而掉分(final test 65.21 vs 68.32),需集成才能稳定
- 未显式建模跨模态不一致性——A/H的核心特征恰恰是模态间矛盾,当前融合方式对此不够敏感
- 人脸和场景模态性能较弱(~62%),可能限制了融合上限
与相关工作的对比¶
- Hallmen et al.(CVPRW25): 三模态(文本+视觉+音频),用ViT+LSTM+BERT+MLP融合。本文增加场景模态并用更强的Mamba+原型增强
- Savchenko & Savchenko(CVPRW25): 文本+人脸轻量融合,best val靠合并文本和人脸。本文四模态全覆盖且Transformer融合更系统
- González-González et al.(ICLR26): BAH数据集创建者,建立了多策略基线。本文在此基础上引入VideoMAE场景建模和原型增强
启发与关联¶
- A/H识别任务的独特性在于跨模态"矛盾检测"——未来可用对比学习显式建模模态间不一致而非仅做后融合
- 原型增强分类的思路可用于其他数据有限的细粒度情感任务
- Mamba作为音频时序编码器的成功为其他speech-based任务提供参考
评分¶
- 新颖性: ⭐⭐⭐ 竞赛方案,各组件借鉴现有工作但场景模态+原型增强有一定新意
- 实验充分度: ⭐⭐⭐⭐ 7个单模态配置+12个融合配置+10个消融组合,分析全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验表格信息丰富
- 价值: ⭐⭐⭐ ABAW竞赛技术报告,对情感计算多模态融合有参考价值