Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶

会议: CVPR 2025 (ABAW Workshop)
arXiv: 2603.12848
代码: GitHub
领域: 情感计算 / 多模态融合
关键词: 矛盾/犹豫识别, 多模态融合, Prototype-augmented, Mamba, Transformer融合

一句话总结¶

本文提出面向视频级矛盾/犹豫（A/H）识别的多模态方法，整合场景（VideoMAE）、面部（EmotionEfficientNetB0）、音频（EmotionWav2Vec2.0+Mamba）和文本（EmotionDistilRoBERTa）四种模态，通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1，最终以五模型集成在测试集达到 71.43%。

研究背景与动机¶

领域现状：情感计算旨在赋予智能系统感知人类情感的能力，第 10 届 ABAW 竞赛提出矛盾/犹豫（A/H）视频级识别任务——判断视频是否包含矛盾或犹豫行为。
现有痛点：A/H 与基本情绪不同，表现为模态间的不一致性（言语内容 vs 语气 vs 面部表情可能矛盾），单模态难以捕捉；先前工作多用简单融合策略，未充分建模跨模态交互。
核心矛盾：A/H 信号微妙且上下文依赖——需要多模态协同理解来发现"说的和做的不一致"的矛盾信号，但跨模态融合容易在模态间不一致证据下失败。
本文要解决什么？ 如何有效融合场景、面部、音频、文本四种互补模态来识别视频中的 A/H 行为？
切入角度：先训练各模态独立的专家编码器提取紧凑表示，再用 Transformer 融合模块在模态 token 上建模交互，辅以原型分类目标增强泛化。
核心idea一句话：四模态专家编码器 + Transformer 跨模态融合 + 原型增强分类 + 多种子集成。

方法详解¶

整体框架¶

四阶段流水线：(1) 各模态独立编码器提取嵌入；(2) 投影到共享潜在空间；(3) Transformer 编码器融合模态 token；(4) 分类头 + 可选原型头预测 A/H。

关键设计¶

场景模态（VideoMAE）
做什么：捕捉视频中的行为动态和不确定性线索
核心思路：均匀采样 16 帧 → tubelet embedding → Transformer 编码器 → 全局平均池化得到场景嵌入 \(h_s\)
设计动机：VideoMAE 预训练于 Kinetics-400，能捕捉时空依赖，适合分析行为模式
面部模态（EmotionEfficientNetB0 + 统计池化）
做什么：提取帧级面部情感嵌入，聚合为视频级表示
核心思路：YOLO 人脸检测 → EfficientNetB0（AffectNet+微调）提取每帧情感嵌入 → 统计池化 \([\mu; \sigma]\) 得到视频级表示
设计动机：均值捕捉主导情感状态，标准差捕捉情感波动——A/H 的关键特征正是情感不稳定
音频模态（EmotionWav2Vec2.0 + Mamba 编码器）
做什么：提取语音中的情感韵律特征并建模时序依赖
核心思路：EmotionWav2Vec2.0 提取声学嵌入序列 → Mamba 编码器建模时序依赖 → 均值池化 → 线性层
设计动机：Mamba 的线性复杂度适合处理变长音频序列，且状态空间模型能捕捉语音中犹豫、停顿等时序模式
文本模态（EmotionDistilRoBERTa 微调）
做什么：从转录文本中提取语言犹豫线索
核心思路：直接微调 EmotionDistilRoBERTa → MLP 分类头
设计动机：文本是最强单模态线索（70.02% MF1），犹豫/矛盾常通过措辞表达
原型增强 Transformer 融合模型
做什么：融合四模态嵌入并通过原型分类增强泛化
核心思路：各模态嵌入投影到共享空间 \(u_m = \phi_m(x_m)\)，加模态嵌入后送入 6 层 Transformer → masked 均值池化 → 主分类头 + 原型分类头
原型头：每类 16 个可学习原型，用 \(\ell_2\) 归一化余弦相似度 + log-sum-exp 计算类别分数
设计动机：原型辅助损失在训练时提供更平滑的梯度信号，避免对硬标签过拟合

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{\text{cls}} + \lambda_{\text{proto}} \mathcal{L}_{\text{proto}} + \lambda_{\text{div}} \mathcal{L}_{\text{div}}\)，其中 \(\lambda_{\text{proto}}=0.2\)，\(\lambda_{\text{div}}=0\)（多样性正则项被禁用）。使用 RMSprop 优化器，5 种固定种子训练取平均以降低初始化敏感性。

实验关键数据¶

主实验（BAH 语料库）¶

模型配置	模态	平均 MF1	最终测试 MF1
EmotionDistilRoBERTa	文本	70.02%	—
EmotionWav2Vec2.0+Mamba	音频	69.03%	—
四模态融合	全部	82.66%	68.32%
四模态融合+原型	全部	83.25%	65.21%
5模型集成	全部	81.29%	70.17%
5模型集成+原型	全部	81.89%	71.43%

消融实验（模态组合）¶

模态组合	平均 MF1	说明
场景+文本	80.39%	最强双模态组合
面部+场景+文本	78.77%	最强三模态组合
面部+音频	67.40%	无文本表现差
四模态完整	82.66%	四模态最优

关键发现¶

文本是最强单模态（~70% MF1），其次是音频（69%），面部和场景单独较弱（~62%）
多模态融合显著优于所有单模态——最佳融合比最佳单模态高 13+ 个百分点
原型增强提高验证集性能但降低单模型测试泛化性；集成后原型增强才能在测试集体现优势
场景+文本是最强双模态组合（80.39%），说明行为动态和语言线索高度互补

亮点与洞察¶

文本模态主导 A/H 识别：验证了语言内容对矛盾/犹豫检测的核心作用——人们的犹豫往往通过措辞最直接地表达
原型增强 + 集成策略：原型分类作为辅助损失在训练时提供正则化效果，但需要集成来弥补单模型不稳定问题
Mamba 用于音频时序建模：Mamba 的线性复杂度适合变长音频，比 Transformer 更高效，且在音频模态上表现更好
统计池化捕捉情感波动：面部模态使用 \([\mu; \sigma]\) 而非仅 \(\mu\)，标准差编码了情感波动程度——矛盾行为的关键信号

局限性 / 可改进方向¶

BAH 语料库规模较小（1427 视频），限制了深度模型的泛化能力
文本模态依赖自动转录质量，真实场景中 ASR 错误可能影响性能
未建模模态间的不一致性——A/H 的核心特征之一是"说的与表情不一致"，但当前融合方式是对齐而非对比
场景模态仅采样 16 帧，可能丢失关键犹豫时刻

评分¶

新颖性: ⭐⭐⭐ 组件层面无重大创新（都是已有模块的组合），但原型增强融合和 A/H 任务的四模态设计有一定新意
实验充分度: ⭐⭐⭐⭐ 详尽的消融实验覆盖了所有模态组合和模型变体
写作质量: ⭐⭐⭐⭐ 结构清晰，实验描述详细，复现性好
价值: ⭐⭐⭐ 竞赛方案论文，方法通用性有限但提供了 A/H 识别的有价值基线