跳转至

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.13056
代码: 有(GitHub)
领域: 情感计算 / 连续情感识别
关键词: 效价-唤醒估计, 多模态融合, VLM行为描述, Mamba, ABAW竞赛

一句话总结

提出三模态连续VA估计方法,首次将VLM(Qwen3-VL-4B)生成的情感行为描述嵌入作为独立模态,与GRADA人脸编码器和WavLM音频特征通过两种融合策略(DCMMOE和RAAV)组合,在Aff-Wild2上达到CCC 0.658(dev)/0.62(test)。

背景与动机

连续效价-唤醒(VA)估计在野外条件下仍然困难——外观变化大、头部姿态多样、遮挡频繁、音频噪声大。此前ABAW挑战赛的SOTA方法主要使用人脸+音频+跨注意力融合,但未探索利用VLM提取行为级语义描述(如面部表情变化、手势、身体姿态)作为新的模态。VLM可以捕获传统特征提取器难以编码的上下文和情境线索。

核心问题

如何将VLM的行为理解能力有效整合到连续VA估计管线中?核心挑战:(1)VLM输出是段级而非帧级,需要时序对齐;(2)音频在野外视频中常含噪声/非语音段,需要可靠性过滤;(3)三种模态的时间分辨率和信息密度差异大,需要自适应融合。

方法详解

整体框架

三路独立单模态编码 → 两种融合策略:DCMMOE(有向跨模态MoE)和RAAV(可靠性感知音视频融合)。

关键设计

  1. GRADA人脸模型: EfficientNet-B1在10个情感数据集上多任务微调(7.9M参数),输出256维帧级情感嵌入。Transformer时序回归在长度\(L=400\)、步长\(S=150\)的滑动窗口上建模。YOLO人脸检测+手动身份标注确保单一目标。

  2. Qwen3-VL行为描述模型: 用Qwen3-VL-4B-Instruct处理16帧视频段+情感导向prompt("描述此人的面部表情、身体姿态、手势、头部动作及场景..."),提取最后隐藏层token作为段级行为嵌入。两种设置:纯视觉嵌入(仅视觉token)和多模态嵌入(视频+文本联合)。段级嵌入经Mamba编码器(4-12层, hidden 128-256, state 8)建模时序动态,帧级预测通过段到帧展开+重叠平均获得。

  3. WavLM-Large音频模型: 用嘴部开合(MediaPipe)做跨模态过滤——仅保留张嘴时长和标注覆盖率超阈值的段。微调WavLM-Large顶部4层,4秒段分为4个时间块,每块用注意力统计池化(加权均值+加权标准差)聚合。

  4. 两种融合策略:

  5. DCMMOE: 对\(M\)个模态的所有\(M(M-1)\)有序对建立交叉注意力专家,门控网络按时间步自适应加权——显式建模有向的跨模态交互
  6. RAAV: 帧级融合——人脸和行为特征通过masked可靠性门控加权求和,音频作为辅助上下文通过bottleneck交叉注意力注入

损失函数 / 训练策略

混合CCC损失+可选MAE项。AdamW, lr=1e-4, batch 8, ReduceLROnPlateau。各模态不同配置经网格搜索确定。

实验关键数据

ID 配置 Valence CCC Arousal CCC Avg CCC Test
1 人脸: GRADA+Transformer 0.587 0.651 0.619 0.54
2 行为: Qwen3视觉+Mamba 0.250 0.551 0.401 -
3 行为: Qwen3多模态+Mamba 0.429 0.648 0.539 -
4 音频: WavLM+块池化 0.342 0.464 0.403 -
5 人脸+音频 DCMMOE 0.625 0.667 0.646 0.58
7 人脸+行为(多模态)+音频 DCMMOE 0.610 0.688 0.649 0.61
8 人脸+行为(多模态)+音频 RAAV 0.608 0.707 0.658 0.62

消融实验要点

  • Qwen3多模态嵌入(0.539)大幅优于纯视觉嵌入(0.401)——文本prompt引导的行为理解至关重要
  • 三模态融合(0.649-0.658)一致优于双模态(0.646)和单模态(0.619)
  • RAAV在arousal上特别强(0.707),DCMMOE在valence上稍优(0.625 vs 0.608)
  • 音频跨模态过滤(嘴部开合检测)有效减少噪声段干扰
  • 视觉Qwen3嵌入(0.250 valence)与纯视觉方法差距极大,说明VLM视觉特征直接用于回归效果差,需多模态上下文

亮点

  • 首次将VLM行为描述作为独立模态用于连续VA估计——这是一个新颖且有启发性的方向
  • Qwen3多模态 vs 纯视觉的巨大差距(0.539 vs 0.401)清晰展示了文本prompt引导的价值
  • RAAV的非对称设计(视觉决定时间分辨率,音频提供补充上下文)反映了任务特性
  • 嘴部开合做音频可靠性过滤是简单有效的跨模态策略

局限性 / 可改进方向

  • Qwen3段级嵌入→帧级展开的时间分辨率损失,segment长度和prompt设计需更多探索
  • RAAV中音频仅作为补充上下文(bottleneck),可能限制了音频信息的利用
  • Aff-Wild2约3M帧但仅594个视频和584个受试者,个体差异可能主导结果
  • Dev(0.658)到test(0.62)的性能下降提示泛化性不足

与相关工作的对比

  • Yu et al.(9th ABAW冠军): ResNet视觉+VGGish/LogMel音频+TCN+跨模态注意力。本文增加了VLM行为模态
  • Praveen et al.(8th ABAW): 门控递归联合跨注意力(GR-JCA)做双模态融合。本文用DCMMOE建模所有有向对
  • Savchenko(CVPRW22-25): 轻量EfficientNet+文本+音频。本文用更重的VLM但获得了行为级语义

启发与关联

  • VLM行为描述作为"额外模态"的思路可推广到其他视频理解任务——动作识别、社交信号处理等
  • Mamba处理VLM段级嵌入序列是自然选择——SSM适合中等长度序列建模

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将VLM行为描述用于连续VA估计,多模态vs视觉嵌入的对比有洞察力
  • 实验充分度: ⭐⭐⭐⭐ 8种配置系统对比,两种融合策略,单/双/三模态全覆盖
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述细致
  • 价值: ⭐⭐⭐⭐ 对情感计算+VLM交叉领域有参考价值