Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶
会议: CVPR 2025 (ABAW Workshop)
arXiv: 2603.12848
代码: GitHub
领域: 情感计算 / 多模态融合
关键词: 矛盾/犹豫识别, 多模态融合, Prototype-augmented, Mamba, Transformer融合
一句话总结¶
本文提出面向视频级矛盾/犹豫(A/H)识别的多模态方法,整合场景(VideoMAE)、面部(EmotionEfficientNetB0)、音频(EmotionWav2Vec2.0+Mamba)和文本(EmotionDistilRoBERTa)四种模态,通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1,最终以五模型集成在测试集达到 71.43%。
研究背景与动机¶
- 领域现状:情感计算旨在赋予智能系统感知人类情感的能力,第 10 届 ABAW 竞赛提出矛盾/犹豫(A/H)视频级识别任务——判断视频是否包含矛盾或犹豫行为。
- 现有痛点:A/H 与基本情绪不同,表现为模态间的不一致性(言语内容 vs 语气 vs 面部表情可能矛盾),单模态难以捕捉;先前工作多用简单融合策略,未充分建模跨模态交互。
- 核心矛盾:A/H 信号微妙且上下文依赖——需要多模态协同理解来发现"说的和做的不一致"的矛盾信号,但跨模态融合容易在模态间不一致证据下失败。
- 本文要解决什么? 如何有效融合场景、面部、音频、文本四种互补模态来识别视频中的 A/H 行为?
- 切入角度:先训练各模态独立的专家编码器提取紧凑表示,再用 Transformer 融合模块在模态 token 上建模交互,辅以原型分类目标增强泛化。
- 核心idea一句话:四模态专家编码器 + Transformer 跨模态融合 + 原型增强分类 + 多种子集成。
方法详解¶
整体框架¶
四阶段流水线:(1) 各模态独立编码器提取嵌入;(2) 投影到共享潜在空间;(3) Transformer 编码器融合模态 token;(4) 分类头 + 可选原型头预测 A/H。
关键设计¶
- 场景模态(VideoMAE)
- 做什么:捕捉视频中的行为动态和不确定性线索
- 核心思路:均匀采样 16 帧 → tubelet embedding → Transformer 编码器 → 全局平均池化得到场景嵌入 \(h_s\)
-
设计动机:VideoMAE 预训练于 Kinetics-400,能捕捉时空依赖,适合分析行为模式
-
面部模态(EmotionEfficientNetB0 + 统计池化)
- 做什么:提取帧级面部情感嵌入,聚合为视频级表示
- 核心思路:YOLO 人脸检测 → EfficientNetB0(AffectNet+微调)提取每帧情感嵌入 → 统计池化 \([\mu; \sigma]\) 得到视频级表示
-
设计动机:均值捕捉主导情感状态,标准差捕捉情感波动——A/H 的关键特征正是情感不稳定
-
音频模态(EmotionWav2Vec2.0 + Mamba 编码器)
- 做什么:提取语音中的情感韵律特征并建模时序依赖
- 核心思路:EmotionWav2Vec2.0 提取声学嵌入序列 → Mamba 编码器建模时序依赖 → 均值池化 → 线性层
-
设计动机:Mamba 的线性复杂度适合处理变长音频序列,且状态空间模型能捕捉语音中犹豫、停顿等时序模式
-
文本模态(EmotionDistilRoBERTa 微调)
- 做什么:从转录文本中提取语言犹豫线索
- 核心思路:直接微调 EmotionDistilRoBERTa → MLP 分类头
-
设计动机:文本是最强单模态线索(70.02% MF1),犹豫/矛盾常通过措辞表达
-
原型增强 Transformer 融合模型
- 做什么:融合四模态嵌入并通过原型分类增强泛化
- 核心思路:各模态嵌入投影到共享空间 \(u_m = \phi_m(x_m)\),加模态嵌入后送入 6 层 Transformer → masked 均值池化 → 主分类头 + 原型分类头
- 原型头:每类 16 个可学习原型,用 \(\ell_2\) 归一化余弦相似度 + log-sum-exp 计算类别分数
- 设计动机:原型辅助损失在训练时提供更平滑的梯度信号,避免对硬标签过拟合
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{\text{cls}} + \lambda_{\text{proto}} \mathcal{L}_{\text{proto}} + \lambda_{\text{div}} \mathcal{L}_{\text{div}}\),其中 \(\lambda_{\text{proto}}=0.2\),\(\lambda_{\text{div}}=0\)(多样性正则项被禁用)。使用 RMSprop 优化器,5 种固定种子训练取平均以降低初始化敏感性。
实验关键数据¶
主实验(BAH 语料库)¶
| 模型配置 | 模态 | 平均 MF1 | 最终测试 MF1 |
|---|---|---|---|
| EmotionDistilRoBERTa | 文本 | 70.02% | — |
| EmotionWav2Vec2.0+Mamba | 音频 | 69.03% | — |
| 四模态融合 | 全部 | 82.66% | 68.32% |
| 四模态融合+原型 | 全部 | 83.25% | 65.21% |
| 5模型集成 | 全部 | 81.29% | 70.17% |
| 5模型集成+原型 | 全部 | 81.89% | 71.43% |
消融实验(模态组合)¶
| 模态组合 | 平均 MF1 | 说明 |
|---|---|---|
| 场景+文本 | 80.39% | 最强双模态组合 |
| 面部+场景+文本 | 78.77% | 最强三模态组合 |
| 面部+音频 | 67.40% | 无文本表现差 |
| 四模态完整 | 82.66% | 四模态最优 |
关键发现¶
- 文本是最强单模态(~70% MF1),其次是音频(69%),面部和场景单独较弱(~62%)
- 多模态融合显著优于所有单模态——最佳融合比最佳单模态高 13+ 个百分点
- 原型增强提高验证集性能但降低单模型测试泛化性;集成后原型增强才能在测试集体现优势
- 场景+文本是最强双模态组合(80.39%),说明行为动态和语言线索高度互补
亮点与洞察¶
- 文本模态主导 A/H 识别:验证了语言内容对矛盾/犹豫检测的核心作用——人们的犹豫往往通过措辞最直接地表达
- 原型增强 + 集成策略:原型分类作为辅助损失在训练时提供正则化效果,但需要集成来弥补单模型不稳定问题
- Mamba 用于音频时序建模:Mamba 的线性复杂度适合变长音频,比 Transformer 更高效,且在音频模态上表现更好
- 统计池化捕捉情感波动:面部模态使用 \([\mu; \sigma]\) 而非仅 \(\mu\),标准差编码了情感波动程度——矛盾行为的关键信号
局限性 / 可改进方向¶
- BAH 语料库规模较小(1427 视频),限制了深度模型的泛化能力
- 文本模态依赖自动转录质量,真实场景中 ASR 错误可能影响性能
- 未建模模态间的不一致性——A/H 的核心特征之一是"说的与表情不一致",但当前融合方式是对齐而非对比
- 场景模态仅采样 16 帧,可能丢失关键犹豫时刻
相关工作与启发¶
- vs González-González et al. (baseline):baseline 使用简单拼接融合,本文用 Transformer 融合 + 原型增强,更好地捕捉跨模态交互
- vs Savchenko & Savchenko:他们最好的结果来自文本+面部组合,本文证明四模态融合和场景信息能进一步提升
- vs Hallmen et al.:其三模态融合用 MLP,本文的 Transformer 融合模块更强大
评分¶
- 新颖性: ⭐⭐⭐ 组件层面无重大创新(都是已有模块的组合),但原型增强融合和 A/H 任务的四模态设计有一定新意
- 实验充分度: ⭐⭐⭐⭐ 详尽的消融实验覆盖了所有模态组合和模型变体
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验描述详细,复现性好
- 价值: ⭐⭐⭐ 竞赛方案论文,方法通用性有限但提供了 A/H 识别的有价值基线