CVPR 2026 (ABAW Workshop) 语音犹豫/矛盾识别多模态融合原型增强分类 Mamba VideoMAE ABAW竞赛

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach¶

会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.12848
代码: LEYA-HSE/ABAW10-BAH
领域: 情感计算 / 多模态理解
关键词: 犹豫/矛盾识别, 多模态融合, 原型增强分类, Mamba, VideoMAE, ABAW竞赛

一句话总结¶

提出四模态（场景 VideoMAE + 人脸 EfficientNetB0 + 音频 Wav2Vec2.0/Mamba + 文本 EmotionDistilRoBERTa）融合管线，通过原型增强 Transformer 融合模块将各模态嵌入投影到共享 128 维空间并以原型分类辅助损失正则化，在 BAH 语料的最终测试集上以 5 模型集成达到 71.43% Macro F1，显著超越所有单模态基线。

研究背景与动机¶

任务定义: 第 10 届 ABAW 竞赛的犹豫/矛盾（Ambivalence/Hesitancy, A/H）视频识别挑战——给定一段视频，判断其中是否包含 A/H 行为（视频级二分类）。
现实价值: A/H 与决策不确定性、动机波动密切相关，在数字行为健康干预中可用于判断用户是否准备改变行为、是否出现抵触或脱离风险。
核心挑战: 不同于基本情绪（如开心、惊讶），A/H 表现极其微妙，且常通过跨模态不一致性显现——例如话语积极但表情犹豫、语调缺乏信心但内容明确。这使得简单的单模态或浅层融合难以捕捉关键信号。
先前工作局限: 前人（González-González et al., Hallmen et al., Savchenko & Savchenko）主要使用人脸+音频+文本三模态，融合策略相对简单（拼接/MLP/logistic blending），未引入场景模态，也未采用强正则化的融合。
本文方案: 增加场景模态提供全局上下文，使用 Transformer 融合模块建模模态交互，并引入原型增强分类头作为训练时的辅助正则。

方法详解¶

整体框架¶

采用两阶段策略：

阶段一——独立训练四个专用单模态模型（场景/人脸/音频/文本），每个模型将视频映射到一个固定维度的嵌入向量。
阶段二——将四个嵌入投影到共享 128 维空间，通过 6 层 Transformer 编码器建模模态间交互，最终做视频级 A/H 二分类。

关键设计¶

1. 场景视觉编码器（VideoMAE）¶

功能: 捕捉视频中的全局场景动态和行为上下文信息。
核心思路: 使用 VideoMAE（基于 ViT，Kinetics-400 预训练）作为视频级场景编码器。从每段视频均匀采样 \(T_v=16\) 帧，resize 到 \(224 \times 224\)，通过 tubelet embedding 将视频划分为 \(2 \times 16 \times 16\) 的时空 patch，投影到 \(D=768\) 维空间并加位置编码。Transformer 编码器对所有 token 做时空自注意力，最终通过全局平均池化得到场景嵌入 \(h_s\)。
设计动机: 场景模态提供被试所处的环境和整体行为模式（如身体姿态、手势运动），是先前 A/H 工作中未利用的互补信号。
训练: 15 epochs, AdamW, lr=2e-5, weight decay=1e-2, batch size=4, cosine annealing, label smoothing=0.1。

2. 人脸情感编码器（EmotionEfficientNetB0）¶

功能: 提取面部情绪微表情信息，作为 A/H 状态的视觉线索。
核心思路: 用 YOLO 人脸检测器逐帧检测人脸（多人取最大框，无检测则用全帧 fallback），crop 后 resize 到 \(224 \times 224\)，输入 AffectNet+ 微调的 EfficientNetB0 提取逐帧情感嵌入。对 \(F\) 帧嵌入 \(\{e_f\}_{f=1}^F\) 做统计池化——计算均值 \(\mu\) 和标准差 \(\sigma\) 并拼接 \([\mu; \sigma]\)，形成紧凑且保留分布信息的视频级人脸表征。
设计动机: A/H 可能表现为面部表情的时序波动（如从微笑到皱眉的交替），统计池化中的标准差可以捕捉这种变异性。
超参: 30 帧均匀采样, 16 hidden states, 256 output features, lr=1e-3, AdamW。

3. 音频时序编码器（EmotionWav2Vec2.0 + Mamba）¶

功能: 从语音韵律中提取犹豫/矛盾的声学线索（语调变化、停顿、语速波动等）。
核心思路: 从视频中提取音频并重采样到 16 kHz，输入 MSP-Podcast 语料微调的 Wav2Vec2.0（取第 10 层输出，维度 \(T_a \times 1024\)），然后用 Mamba 编码器建模时序依赖，最后时间平均池化得音频嵌入 \(a\)。Mamba 的参数：state size=8, conv kernel=4, expansion factor=2, hidden=256, FFN=512, dropout=0.1。
设计动机: Mamba 提供线性复杂度的序列建模，优于 Transformer（实验验证），特别适合长度可变的音频序列。选择第 10 层而非最后层是因为中间层更好地保留了情感相关的韵律特征。
损失函数: 标准交叉熵，Mamba 输出接线性层做分类。

4. 文本语义编码器（EmotionDistilRoBERTa）¶

功能: 从语言内容中提取语义级 A/H 线索（犹豫用词、自我矛盾的陈述等）。
核心思路: 使用 BAH 语料提供的自动语音转录文本。主配置为 EmotionDistilRoBERTa（情感预训练的 DistilRoBERTa），直接在 A/H 任务上微调，输出经 MLP 分类头做最终预测。备选方案包括 TF-IDF + Logistic Regression/CatBoost（MF1 达 68-69%）和 EmotionTextClassifier 微调（70.00%）。
设计动机: 先前研究一致表明文本是 A/H 识别最强的单模态线索。精调情感预训练模型可同时利用情感先验和任务特定知识。
训练: 部分冻结 backbone, MLP head 1-3 层 hidden=64-128, dropout 0-0.3, AdamW/SGD, lr 1e-5~0.1, batch=16, 3-20 epochs + early stopping。

5. Transformer 多模态融合模块¶

功能: 将四个模态嵌入在共享空间中建模交互关系，生成融合表征用于最终分类。
核心思路: 每个模态嵌入 \(x_m \in \mathbb{R}^{d_m}\) 经模态专用投影器（Linear + LayerNorm + GELU + Dropout）映射到共享 \(d=128\) 维空间得 \(u_m\)，加可学习模态嵌入 \(E_{\text{mod}}\) 后送入 6 层 Transformer 编码器（4 头注意力, FFN 扩展因子 6, dropout=0.45）。输出通过 masked mean pooling 得融合表示 \(z_{\text{fused}}\)，送入线性分类器输出 logits。
缺失模态处理: 若某模态不可用，提供二值 mask \(\mu_m \in \{0,1\}\) 在自注意力中屏蔽对应 token，增强鲁棒性。
设计动机: Transformer 编码器能自适应地学习模态间的注意力权重，比手动设计的融合策略更灵活。投影到共享低维空间（128维）减少参数量并促进跨模态对齐。

6. 原型增强分类头¶

功能: 通过原型匹配提供训练时的辅助正则信号，使融合表征在类内更紧凑。
核心思路: 维护每类 \(K=16\) 个可学习原型 \(p_{c,k}\)，融合表示 \(z_{\text{fused}}\) 与原型做 \(\ell_2\) 归一化后计算余弦相似度（温度 \(\tau=0.3\)），通过 log-sum-exp 聚合为类别原型得分 \(\hat{y}^{\text{proto}}_c\)。
损失函数: 总损失 \(\mathcal{L} = \mathcal{L}_{\text{cls}} + 0.2 \cdot \mathcal{L}_{\text{proto}} + 0 \cdot \mathcal{L}_{\text{div}}\)。其中 \(\mathcal{L}_{\text{cls}}\) 为主分类交叉熵，\(\mathcal{L}_{\text{proto}}\) 为原型辅助分类损失。多样性正则 \(\mathcal{L}_{\text{div}}\) 实验中被禁用（\(\lambda_{\text{div}}=0\)）。推理时仅使用主线性分类器头。
设计动机: 原型匹配提供隐式聚类约束，使类内表示更紧凑、类间更分散，在小数据集上起到正则化作用。

训练与集成策略¶

融合模型训练: RMSprop, lr=9.44e-5, weight decay=5.55e-4, label smoothing=0.02, gradient clipping=0.5, cosine LR scheduler。
稳定性工程: Optuna 超参搜索 + 5 个固定随机种子（42/2025/7777/12345/31415）训练，每个配置训练 5 次取平均 MF1 做选择。
最终集成: 5 个种子模型的类概率平均作为最终预测。

实验关键数据¶

数据集¶

BAH 语料：1,427 段视频，300 名参与者，共 10.60 小时。通过线上 avatar 引导交互收集，包含视频级和帧级 A/H 标注、人脸裁剪、语音转录等。按参与者划分为 train/valid/public test/private test，评价指标为 Macro F1 (MF1)。

主实验¶

ID	配置	模态	Dev MF1(%)	Valid MF1(%)	Avg MF1(%)	Final Test(%)
1	EmotionEfficientNetB0 + 统计特征 + MLP	人脸	65.29	60.05	62.67	—
2	VideoMAE + Linear	场景	61.71	62.21	61.96	—
3	EmotionWav2Vec2.0 + Mamba + Linear	音频	67.20	70.87	69.03	—
4	TF-IDF + Logistic Regression	文本	68.30	67.75	68.03	—
5	TF-IDF + CatBoost	文本	65.56	72.02	68.79	—
6	EmotionTextClassifier 微调 + MLP	文本	69.28	70.72	70.00	—
7	EmotionDistilRoBERTa 微调 + MLP	文本	68.54	71.49	70.02	—
11	四模态融合（无原型）	全部	85.38	79.94	82.66	68.32
12	四模态融合（原型增强）	全部	83.79	82.72	83.25	65.21
13	5 模型集成（无原型）	全部	81.94	80.64	81.29	70.17
14	5 模型集成（原型增强）	全部	83.00	80.77	81.89	71.43

消融实验：模态组合¶

ID	模态组合	Dev MF1(%)	Valid MF1(%)	Avg MF1(%)
15	人脸 + 音频	63.36	71.44	67.40
16	人脸 + 文本	65.29	61.19	63.24
17	人脸 + 场景	78.07	77.09	77.58
18	音频 + 文本	67.05	70.99	69.02
19	场景 + 音频	77.37	77.66	77.51
20	场景 + 文本	81.77	79.00	80.39
21	场景 + 音频 + 文本	79.89	77.63	78.76
22	人脸 + 场景 + 文本	79.89	77.65	78.77
23	人脸 + 场景 + 音频	76.10	79.15	77.62
24	人脸 + 音频 + 文本	68.08	70.41	69.25
11	全部四模态	85.38	79.94	82.66

关键发现¶

文本是最强单模态：EmotionDistilRoBERTa 微调达 70.02%，其次是音频 Mamba（69.03%），人脸和场景较弱（~62%）。
场景+文本是最强双模态组合（80.39%）：场景提供行为上下文，文本提供语义内容，互补性最强。
四模态融合大幅超越所有子集：82.66% vs 最强双模态 80.39%（+2.27%），vs 最强三模态 78.77%（+3.89%）。
原型增强提升 dev/valid 表现（83.25% vs 82.66%），但单模型 final test 反而下降（65.21% vs 68.32%）——提示原型头增加了对验证集的过拟合风险。
集成是泛化的关键：单模型 68.32% → 5 模型集成 71.43%（+3.11%），集成有效缓解初始化敏感性。
Mamba 优于 Transformer 作为音频时序编码器（论文明确报告 layer 10 + Mamba 是最优音频配置）。

亮点与洞察¶

四模态全覆盖：相比前人仅用人脸/音频/文本，本文新增场景模态提供了关键的全局上下文信号，场景+文本组合甚至超过人脸+音频+文本三模态（80.39% vs 69.25%）。
原型增强的正则效应：原型头在训练时引导融合表征形成更清晰的类内聚类，推理时不使用，是一种零成本的训练增强技巧。
工程上的稳健性设计：5 种子训练 + Optuna 超参搜索 + 概率平均集成，是竞赛中保证稳定性的完整工程范式。
模态缺失处理：融合模块内置 binary mask 机制，优雅处理部分模态不可用的情况。

局限性¶

Dev/Valid 与 Final Test 差距显著（83.25% → 71.43%），暴露出在仅 1,427 段视频的小数据集上严重的过拟合/泛化问题。
未显式建模跨模态不一致性：A/H 的核心特征是"说的和表现的不一致"，但 Transformer 融合仅做通用注意力聚合，缺乏对模态矛盾信号的显式检测机制（如对比学习或跨模态差异度量）。
人脸和场景模态较弱（~62%），可能是因为预训练任务（AffectNet 情绪分类、Kinetics 动作识别）与 A/H 判别目标不够匹配。
原型增强单模型反而降低 final test（65.21% vs 68.32%），依赖集成才稳定，说明原型头可能在小数据上引入额外的过拟合。

评分¶

新颖性: ⭐⭐⭐ — 竞赛方案，各组件借鉴现有工作，但场景模态引入和原型增强融合有一定新意。
实验充分度: ⭐⭐⭐⭐ — 7 个单模态配置 + 7 个融合/集成配置 + 10 个双/三模态消融，分析全面。
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验表格信息丰富，各模块描述完整。
价值: ⭐⭐⭐ — ABAW 竞赛技术报告，对情感计算多模态融合具有参考价值，但泛化性问题待解决。