Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶

会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.12848
代码: 有(公开)
领域: 视频理解 / 情感计算
关键词: 犹豫/矛盾识别, 多模态融合, 原型增强分类, Mamba, ABAW竞赛

一句话总结¶

提出四模态(场景VideoMAE+人脸EfficientNetB0+音频Wav2Vec2.0+Mamba+文本EmotionDistilRoBERTa)融合管线，通过原型增强Transformer融合模块将模态嵌入投影到共享空间并结合原型分类辅助损失，在BAH测试集上以5模型集成达到71.43% Macro F1。

背景与动机¶

犹豫/矛盾(Ambivalence/Hesitancy, A/H)是行为改变领域的关键信号——与决策不确定性、动机波动密切相关。不同于基本情绪，A/H表现微妙、常通过跨模态不一致显现（如说的话积极但表情犹豫），因此天然需要多模态建模。先前ABAW竞赛工作表明文本是最强单模态线索，但有效融合仍需专门设计来捕捉跨模态矛盾信号。

核心问题¶

如何从视频中有效识别犹豫/矛盾状态？核心挑战在于A/H信号跨模态分布不均且常表现为模态间的不一致性——简单融合可能埋没这些信号。

方法详解¶

整体框架¶

两阶段策略：先独立训练四路单模态模型（场景/人脸/音频/文本）提取固定维度嵌入，再将四个嵌入通过Transformer融合模型聚合为视频级A/H二分类预测。

关键设计¶

四路专用单模态编码器:
场景: VideoMAE(ViT-based, Kinetics-400预训练)处理16帧序列，全局平均池化得\(h_s\)
人脸: YOLO人脸检测 → EfficientNetB0(AffectNet+微调)提取逐帧情感嵌入 → 统计池化(均值+方差拼接)
音频: EmotionWav2Vec2.0(MSP-Podcast微调, 第10层) → Mamba编码器(state size 8, conv kernel 4) → 时间平均池化
文本: EmotionDistilRoBERTa直接微调做A/H分类。TF-IDF+CatBoost/LogReg也作为备选
Transformer融合模型: 各模态嵌入经模态专用投影器(线性+LayerNorm+GELU+Dropout)映射到共享128维空间 → 加可学习模态嵌入\(E_{mod}\) → 6层Transformer编码器(4头, FFN扩展因子6) → masked mean pooling得融合表示。支持缺失模态(binary mask屏蔽)。
原型增强分类头: 维护每类16个可学习原型\(p_{c,k}\)，融合表示与原型的L2归一化余弦相似度(温度\(\tau=0.3\))产生辅助分类损失。总损失\(\mathcal{L} = \mathcal{L}_{cls} + 0.2\mathcal{L}_{proto}\)。原型头在训练时提供额外正则，推理时由主线性分类器输出最终预测。

损失函数 / 训练策略¶

训练：RMSprop, lr=9.44e-5, weight decay=5.55e-4, LS=0.02, gradient clipping=0.5, cosine LR scheduler
稳定性优化：Optuna做超参搜索，5个固定随机种子(42/2025/7777/12345/31415)训练并平均，减少初始化敏感性
集成：最终预测为5个种子模型的类概率平均

实验关键数据¶

ID	配置	Dev MF1	Valid MF1	Avg MF1	Final Test
7	Text: EmotionDistilRoBERTa微调	68.54	71.49	70.02	-
3	Audio: Wav2Vec2.0+Mamba	67.20	70.87	69.03	-
1	Face: EmotionEfficientNetB0	65.29	60.05	62.67	-
2	Scene: VideoMAE	61.71	62.21	61.96	-
11	四模态融合(无原型)	85.38	79.94	82.66	68.32
12	四模态融合(原型增强)	83.79	82.72	83.25	65.21
14	5模型集成(原型增强)	83.00	80.77	81.89	71.43

消融实验要点¶

单模态最强是文本(70.02%)，其次音频(69.03%)，人脸和场景相对弱(62-63%)
最强双模态组合是场景+文本(80.39%)——场景提供上下文，文本提供语义
三模态(人脸+场景+文本 78.77%)不如四模态(82.66%)
原型增强在dev/valid上提升(83.25 vs 82.66)但单模型final test反而略低(65.21 vs 68.32)——说明原型增强更依赖集成来稳定
集成是final test成功的关键：单模型68.32→集成71.43(+3.11%)
Mamba音频编码器优于Transformer替代方案

亮点¶

四模态全覆盖(场景全局+人脸局部+语音韵律+文本语义)，比前人多引入了场景模态
原型增强机制提供了隐式聚类正则，使融合表示更紧凑
5种子训练+Optuna超参搜索的稳定性工程值得借鉴
Mamba在音频时序建模中的应用效果好（Kinetics级以上数据不必用Transformer）

局限性 / 可改进方向¶

Dev/Valid和Final Test间性能差距大(83.25→71.43)——泛化性不足，可能因BAH语料规模有限(1427视频)
原型头单模型反而掉分(final test 65.21 vs 68.32)，需集成才能稳定
未显式建模跨模态不一致性——A/H的核心特征恰恰是模态间矛盾，当前融合方式对此不够敏感
人脸和场景模态性能较弱(~62%)，可能限制了融合上限

与相关工作的对比¶

Hallmen et al.(CVPRW25): 三模态(文本+视觉+音频)，用ViT+LSTM+BERT+MLP融合。本文增加场景模态并用更强的Mamba+原型增强
Savchenko & Savchenko(CVPRW25): 文本+人脸轻量融合，best val靠合并文本和人脸。本文四模态全覆盖且Transformer融合更系统
González-González et al.(ICLR26): BAH数据集创建者，建立了多策略基线。本文在此基础上引入VideoMAE场景建模和原型增强

启发与关联¶

A/H识别任务的独特性在于跨模态"矛盾检测"——未来可用对比学习显式建模模态间不一致而非仅做后融合
原型增强分类的思路可用于其他数据有限的细粒度情感任务
Mamba作为音频时序编码器的成功为其他speech-based任务提供参考

评分¶

新颖性: ⭐⭐⭐ 竞赛方案，各组件借鉴现有工作但场景模态+原型增强有一定新意
实验充分度: ⭐⭐⭐⭐ 7个单模态配置+12个融合配置+10个消融组合，分析全面
写作质量: ⭐⭐⭐⭐ 结构清晰，实验表格信息丰富
价值: ⭐⭐⭐ ABAW竞赛技术报告，对情感计算多模态融合有参考价值