跳转至

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.12848
代码: 有(公开)
领域: 视频理解 / 情感计算
关键词: 犹豫/矛盾识别, 多模态融合, 原型增强分类, Mamba, ABAW竞赛

一句话总结

提出四模态(场景VideoMAE+人脸EfficientNetB0+音频Wav2Vec2.0+Mamba+文本EmotionDistilRoBERTa)融合管线,通过原型增强Transformer融合模块将模态嵌入投影到共享空间并结合原型分类辅助损失,在BAH测试集上以5模型集成达到71.43% Macro F1。

背景与动机

犹豫/矛盾(Ambivalence/Hesitancy, A/H)是行为改变领域的关键信号——与决策不确定性、动机波动密切相关。不同于基本情绪,A/H表现微妙、常通过跨模态不一致显现(如说的话积极但表情犹豫),因此天然需要多模态建模。先前ABAW竞赛工作表明文本是最强单模态线索,但有效融合仍需专门设计来捕捉跨模态矛盾信号。

核心问题

如何从视频中有效识别犹豫/矛盾状态?核心挑战在于A/H信号跨模态分布不均且常表现为模态间的不一致性——简单融合可能埋没这些信号。

方法详解

整体框架

两阶段策略:先独立训练四路单模态模型(场景/人脸/音频/文本)提取固定维度嵌入,再将四个嵌入通过Transformer融合模型聚合为视频级A/H二分类预测。

关键设计

  1. 四路专用单模态编码器:
  2. 场景: VideoMAE(ViT-based, Kinetics-400预训练)处理16帧序列,全局平均池化得\(h_s\)
  3. 人脸: YOLO人脸检测 → EfficientNetB0(AffectNet+微调)提取逐帧情感嵌入 → 统计池化(均值+方差拼接)
  4. 音频: EmotionWav2Vec2.0(MSP-Podcast微调, 第10层) → Mamba编码器(state size 8, conv kernel 4) → 时间平均池化
  5. 文本: EmotionDistilRoBERTa直接微调做A/H分类。TF-IDF+CatBoost/LogReg也作为备选

  6. Transformer融合模型: 各模态嵌入经模态专用投影器(线性+LayerNorm+GELU+Dropout)映射到共享128维空间 → 加可学习模态嵌入\(E_{mod}\) → 6层Transformer编码器(4头, FFN扩展因子6) → masked mean pooling得融合表示。支持缺失模态(binary mask屏蔽)。

  7. 原型增强分类头: 维护每类16个可学习原型\(p_{c,k}\),融合表示与原型的L2归一化余弦相似度(温度\(\tau=0.3\))产生辅助分类损失。总损失\(\mathcal{L} = \mathcal{L}_{cls} + 0.2\mathcal{L}_{proto}\)。原型头在训练时提供额外正则,推理时由主线性分类器输出最终预测。

损失函数 / 训练策略

  • 训练:RMSprop, lr=9.44e-5, weight decay=5.55e-4, LS=0.02, gradient clipping=0.5, cosine LR scheduler
  • 稳定性优化:Optuna做超参搜索,5个固定随机种子(42/2025/7777/12345/31415)训练并平均,减少初始化敏感性
  • 集成:最终预测为5个种子模型的类概率平均

实验关键数据

ID 配置 Dev MF1 Valid MF1 Avg MF1 Final Test
7 Text: EmotionDistilRoBERTa微调 68.54 71.49 70.02 -
3 Audio: Wav2Vec2.0+Mamba 67.20 70.87 69.03 -
1 Face: EmotionEfficientNetB0 65.29 60.05 62.67 -
2 Scene: VideoMAE 61.71 62.21 61.96 -
11 四模态融合(无原型) 85.38 79.94 82.66 68.32
12 四模态融合(原型增强) 83.79 82.72 83.25 65.21
14 5模型集成(原型增强) 83.00 80.77 81.89 71.43

消融实验要点

  • 单模态最强是文本(70.02%),其次音频(69.03%),人脸和场景相对弱(62-63%)
  • 最强双模态组合是场景+文本(80.39%)——场景提供上下文,文本提供语义
  • 三模态(人脸+场景+文本 78.77%)不如四模态(82.66%)
  • 原型增强在dev/valid上提升(83.25 vs 82.66)但单模型final test反而略低(65.21 vs 68.32)——说明原型增强更依赖集成来稳定
  • 集成是final test成功的关键:单模型68.32→集成71.43(+3.11%)
  • Mamba音频编码器优于Transformer替代方案

亮点

  • 四模态全覆盖(场景全局+人脸局部+语音韵律+文本语义),比前人多引入了场景模态
  • 原型增强机制提供了隐式聚类正则,使融合表示更紧凑
  • 5种子训练+Optuna超参搜索的稳定性工程值得借鉴
  • Mamba在音频时序建模中的应用效果好(Kinetics级以上数据不必用Transformer)

局限性 / 可改进方向

  • Dev/Valid和Final Test间性能差距大(83.25→71.43)——泛化性不足,可能因BAH语料规模有限(1427视频)
  • 原型头单模型反而掉分(final test 65.21 vs 68.32),需集成才能稳定
  • 未显式建模跨模态不一致性——A/H的核心特征恰恰是模态间矛盾,当前融合方式对此不够敏感
  • 人脸和场景模态性能较弱(~62%),可能限制了融合上限

与相关工作的对比

  • Hallmen et al.(CVPRW25): 三模态(文本+视觉+音频),用ViT+LSTM+BERT+MLP融合。本文增加场景模态并用更强的Mamba+原型增强
  • Savchenko & Savchenko(CVPRW25): 文本+人脸轻量融合,best val靠合并文本和人脸。本文四模态全覆盖且Transformer融合更系统
  • González-González et al.(ICLR26): BAH数据集创建者,建立了多策略基线。本文在此基础上引入VideoMAE场景建模和原型增强

启发与关联

  • A/H识别任务的独特性在于跨模态"矛盾检测"——未来可用对比学习显式建模模态间不一致而非仅做后融合
  • 原型增强分类的思路可用于其他数据有限的细粒度情感任务
  • Mamba作为音频时序编码器的成功为其他speech-based任务提供参考

评分

  • 新颖性: ⭐⭐⭐ 竞赛方案,各组件借鉴现有工作但场景模态+原型增强有一定新意
  • 实验充分度: ⭐⭐⭐⭐ 7个单模态配置+12个融合配置+10个消融组合,分析全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验表格信息丰富
  • 价值: ⭐⭐⭐ ABAW竞赛技术报告,对情感计算多模态融合有参考价值