跳转至

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

会议: CVPR 2025 (ABAW Workshop)
arXiv: 2603.12848
代码: GitHub
领域: 情感计算 / 多模态融合
关键词: 矛盾/犹豫识别, 多模态融合, Prototype-augmented, Mamba, Transformer融合

一句话总结

本文提出面向视频级矛盾/犹豫(A/H)识别的多模态方法,整合场景(VideoMAE)、面部(EmotionEfficientNetB0)、音频(EmotionWav2Vec2.0+Mamba)和文本(EmotionDistilRoBERTa)四种模态,通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1,最终以五模型集成在测试集达到 71.43%。

研究背景与动机

  1. 领域现状:情感计算旨在赋予智能系统感知人类情感的能力,第 10 届 ABAW 竞赛提出矛盾/犹豫(A/H)视频级识别任务——判断视频是否包含矛盾或犹豫行为。
  2. 现有痛点:A/H 与基本情绪不同,表现为模态间的不一致性(言语内容 vs 语气 vs 面部表情可能矛盾),单模态难以捕捉;先前工作多用简单融合策略,未充分建模跨模态交互。
  3. 核心矛盾:A/H 信号微妙且上下文依赖——需要多模态协同理解来发现"说的和做的不一致"的矛盾信号,但跨模态融合容易在模态间不一致证据下失败。
  4. 本文要解决什么? 如何有效融合场景、面部、音频、文本四种互补模态来识别视频中的 A/H 行为?
  5. 切入角度:先训练各模态独立的专家编码器提取紧凑表示,再用 Transformer 融合模块在模态 token 上建模交互,辅以原型分类目标增强泛化。
  6. 核心idea一句话:四模态专家编码器 + Transformer 跨模态融合 + 原型增强分类 + 多种子集成。

方法详解

整体框架

四阶段流水线:(1) 各模态独立编码器提取嵌入;(2) 投影到共享潜在空间;(3) Transformer 编码器融合模态 token;(4) 分类头 + 可选原型头预测 A/H。

关键设计

  1. 场景模态(VideoMAE)
  2. 做什么:捕捉视频中的行为动态和不确定性线索
  3. 核心思路:均匀采样 16 帧 → tubelet embedding → Transformer 编码器 → 全局平均池化得到场景嵌入 \(h_s\)
  4. 设计动机:VideoMAE 预训练于 Kinetics-400,能捕捉时空依赖,适合分析行为模式

  5. 面部模态(EmotionEfficientNetB0 + 统计池化)

  6. 做什么:提取帧级面部情感嵌入,聚合为视频级表示
  7. 核心思路:YOLO 人脸检测 → EfficientNetB0(AffectNet+微调)提取每帧情感嵌入 → 统计池化 \([\mu; \sigma]\) 得到视频级表示
  8. 设计动机:均值捕捉主导情感状态,标准差捕捉情感波动——A/H 的关键特征正是情感不稳定

  9. 音频模态(EmotionWav2Vec2.0 + Mamba 编码器)

  10. 做什么:提取语音中的情感韵律特征并建模时序依赖
  11. 核心思路:EmotionWav2Vec2.0 提取声学嵌入序列 → Mamba 编码器建模时序依赖 → 均值池化 → 线性层
  12. 设计动机:Mamba 的线性复杂度适合处理变长音频序列,且状态空间模型能捕捉语音中犹豫、停顿等时序模式

  13. 文本模态(EmotionDistilRoBERTa 微调)

  14. 做什么:从转录文本中提取语言犹豫线索
  15. 核心思路:直接微调 EmotionDistilRoBERTa → MLP 分类头
  16. 设计动机:文本是最强单模态线索(70.02% MF1),犹豫/矛盾常通过措辞表达

  17. 原型增强 Transformer 融合模型

  18. 做什么:融合四模态嵌入并通过原型分类增强泛化
  19. 核心思路:各模态嵌入投影到共享空间 \(u_m = \phi_m(x_m)\),加模态嵌入后送入 6 层 Transformer → masked 均值池化 → 主分类头 + 原型分类头
  20. 原型头:每类 16 个可学习原型,用 \(\ell_2\) 归一化余弦相似度 + log-sum-exp 计算类别分数
  21. 设计动机:原型辅助损失在训练时提供更平滑的梯度信号,避免对硬标签过拟合

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{\text{cls}} + \lambda_{\text{proto}} \mathcal{L}_{\text{proto}} + \lambda_{\text{div}} \mathcal{L}_{\text{div}}\),其中 \(\lambda_{\text{proto}}=0.2\)\(\lambda_{\text{div}}=0\)(多样性正则项被禁用)。使用 RMSprop 优化器,5 种固定种子训练取平均以降低初始化敏感性。

实验关键数据

主实验(BAH 语料库)

模型配置 模态 平均 MF1 最终测试 MF1
EmotionDistilRoBERTa 文本 70.02%
EmotionWav2Vec2.0+Mamba 音频 69.03%
四模态融合 全部 82.66% 68.32%
四模态融合+原型 全部 83.25% 65.21%
5模型集成 全部 81.29% 70.17%
5模型集成+原型 全部 81.89% 71.43%

消融实验(模态组合)

模态组合 平均 MF1 说明
场景+文本 80.39% 最强双模态组合
面部+场景+文本 78.77% 最强三模态组合
面部+音频 67.40% 无文本表现差
四模态完整 82.66% 四模态最优

关键发现

  • 文本是最强单模态(~70% MF1),其次是音频(69%),面部和场景单独较弱(~62%)
  • 多模态融合显著优于所有单模态——最佳融合比最佳单模态高 13+ 个百分点
  • 原型增强提高验证集性能但降低单模型测试泛化性;集成后原型增强才能在测试集体现优势
  • 场景+文本是最强双模态组合(80.39%),说明行为动态和语言线索高度互补

亮点与洞察

  • 文本模态主导 A/H 识别:验证了语言内容对矛盾/犹豫检测的核心作用——人们的犹豫往往通过措辞最直接地表达
  • 原型增强 + 集成策略:原型分类作为辅助损失在训练时提供正则化效果,但需要集成来弥补单模型不稳定问题
  • Mamba 用于音频时序建模:Mamba 的线性复杂度适合变长音频,比 Transformer 更高效,且在音频模态上表现更好
  • 统计池化捕捉情感波动:面部模态使用 \([\mu; \sigma]\) 而非仅 \(\mu\),标准差编码了情感波动程度——矛盾行为的关键信号

局限性 / 可改进方向

  • BAH 语料库规模较小(1427 视频),限制了深度模型的泛化能力
  • 文本模态依赖自动转录质量,真实场景中 ASR 错误可能影响性能
  • 未建模模态间的不一致性——A/H 的核心特征之一是"说的与表情不一致",但当前融合方式是对齐而非对比
  • 场景模态仅采样 16 帧,可能丢失关键犹豫时刻

相关工作与启发

  • vs González-González et al. (baseline):baseline 使用简单拼接融合,本文用 Transformer 融合 + 原型增强,更好地捕捉跨模态交互
  • vs Savchenko & Savchenko:他们最好的结果来自文本+面部组合,本文证明四模态融合和场景信息能进一步提升
  • vs Hallmen et al.:其三模态融合用 MLP,本文的 Transformer 融合模块更强大

评分

  • 新颖性: ⭐⭐⭐ 组件层面无重大创新(都是已有模块的组合),但原型增强融合和 A/H 任务的四模态设计有一定新意
  • 实验充分度: ⭐⭐⭐⭐ 详尽的消融实验覆盖了所有模态组合和模型变体
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验描述详细,复现性好
  • 价值: ⭐⭐⭐ 竞赛方案论文,方法通用性有限但提供了 A/H 识别的有价值基线