Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach¶
会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.13056
代码: 有(GitHub)
领域: 情感计算 / 连续情感识别
关键词: 效价-唤醒估计, 多模态融合, VLM行为描述, Mamba, ABAW竞赛
一句话总结¶
提出三模态连续VA估计方法,首次将VLM(Qwen3-VL-4B)生成的情感行为描述嵌入作为独立模态,与GRADA人脸编码器和WavLM音频特征通过两种融合策略(DCMMOE和RAAV)组合,在Aff-Wild2上达到CCC 0.658(dev)/0.62(test)。
背景与动机¶
连续效价-唤醒(VA)估计在野外条件下仍然困难——外观变化大、头部姿态多样、遮挡频繁、音频噪声大。此前ABAW挑战赛的SOTA方法主要使用人脸+音频+跨注意力融合,但未探索利用VLM提取行为级语义描述(如面部表情变化、手势、身体姿态)作为新的模态。VLM可以捕获传统特征提取器难以编码的上下文和情境线索。
核心问题¶
如何将VLM的行为理解能力有效整合到连续VA估计管线中?核心挑战:(1)VLM输出是段级而非帧级,需要时序对齐;(2)音频在野外视频中常含噪声/非语音段,需要可靠性过滤;(3)三种模态的时间分辨率和信息密度差异大,需要自适应融合。
方法详解¶
整体框架¶
三路独立单模态编码 → 两种融合策略:DCMMOE(有向跨模态MoE)和RAAV(可靠性感知音视频融合)。
关键设计¶
-
GRADA人脸模型: EfficientNet-B1在10个情感数据集上多任务微调(7.9M参数),输出256维帧级情感嵌入。Transformer时序回归在长度\(L=400\)、步长\(S=150\)的滑动窗口上建模。YOLO人脸检测+手动身份标注确保单一目标。
-
Qwen3-VL行为描述模型: 用Qwen3-VL-4B-Instruct处理16帧视频段+情感导向prompt("描述此人的面部表情、身体姿态、手势、头部动作及场景..."),提取最后隐藏层token作为段级行为嵌入。两种设置:纯视觉嵌入(仅视觉token)和多模态嵌入(视频+文本联合)。段级嵌入经Mamba编码器(4-12层, hidden 128-256, state 8)建模时序动态,帧级预测通过段到帧展开+重叠平均获得。
-
WavLM-Large音频模型: 用嘴部开合(MediaPipe)做跨模态过滤——仅保留张嘴时长和标注覆盖率超阈值的段。微调WavLM-Large顶部4层,4秒段分为4个时间块,每块用注意力统计池化(加权均值+加权标准差)聚合。
-
两种融合策略:
- DCMMOE: 对\(M\)个模态的所有\(M(M-1)\)有序对建立交叉注意力专家,门控网络按时间步自适应加权——显式建模有向的跨模态交互
- RAAV: 帧级融合——人脸和行为特征通过masked可靠性门控加权求和,音频作为辅助上下文通过bottleneck交叉注意力注入
损失函数 / 训练策略¶
混合CCC损失+可选MAE项。AdamW, lr=1e-4, batch 8, ReduceLROnPlateau。各模态不同配置经网格搜索确定。
实验关键数据¶
| ID | 配置 | Valence CCC | Arousal CCC | Avg CCC | Test |
|---|---|---|---|---|---|
| 1 | 人脸: GRADA+Transformer | 0.587 | 0.651 | 0.619 | 0.54 |
| 2 | 行为: Qwen3视觉+Mamba | 0.250 | 0.551 | 0.401 | - |
| 3 | 行为: Qwen3多模态+Mamba | 0.429 | 0.648 | 0.539 | - |
| 4 | 音频: WavLM+块池化 | 0.342 | 0.464 | 0.403 | - |
| 5 | 人脸+音频 DCMMOE | 0.625 | 0.667 | 0.646 | 0.58 |
| 7 | 人脸+行为(多模态)+音频 DCMMOE | 0.610 | 0.688 | 0.649 | 0.61 |
| 8 | 人脸+行为(多模态)+音频 RAAV | 0.608 | 0.707 | 0.658 | 0.62 |
消融实验要点¶
- Qwen3多模态嵌入(0.539)大幅优于纯视觉嵌入(0.401)——文本prompt引导的行为理解至关重要
- 三模态融合(0.649-0.658)一致优于双模态(0.646)和单模态(0.619)
- RAAV在arousal上特别强(0.707),DCMMOE在valence上稍优(0.625 vs 0.608)
- 音频跨模态过滤(嘴部开合检测)有效减少噪声段干扰
- 视觉Qwen3嵌入(0.250 valence)与纯视觉方法差距极大,说明VLM视觉特征直接用于回归效果差,需多模态上下文
亮点¶
- 首次将VLM行为描述作为独立模态用于连续VA估计——这是一个新颖且有启发性的方向
- Qwen3多模态 vs 纯视觉的巨大差距(0.539 vs 0.401)清晰展示了文本prompt引导的价值
- RAAV的非对称设计(视觉决定时间分辨率,音频提供补充上下文)反映了任务特性
- 嘴部开合做音频可靠性过滤是简单有效的跨模态策略
局限性 / 可改进方向¶
- Qwen3段级嵌入→帧级展开的时间分辨率损失,segment长度和prompt设计需更多探索
- RAAV中音频仅作为补充上下文(bottleneck),可能限制了音频信息的利用
- Aff-Wild2约3M帧但仅594个视频和584个受试者,个体差异可能主导结果
- Dev(0.658)到test(0.62)的性能下降提示泛化性不足
与相关工作的对比¶
- Yu et al.(9th ABAW冠军): ResNet视觉+VGGish/LogMel音频+TCN+跨模态注意力。本文增加了VLM行为模态
- Praveen et al.(8th ABAW): 门控递归联合跨注意力(GR-JCA)做双模态融合。本文用DCMMOE建模所有有向对
- Savchenko(CVPRW22-25): 轻量EfficientNet+文本+音频。本文用更重的VLM但获得了行为级语义
启发与关联¶
- VLM行为描述作为"额外模态"的思路可推广到其他视频理解任务——动作识别、社交信号处理等
- Mamba处理VLM段级嵌入序列是自然选择——SSM适合中等长度序列建模
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将VLM行为描述用于连续VA估计,多模态vs视觉嵌入的对比有洞察力
- 实验充分度: ⭐⭐⭐⭐ 8种配置系统对比,两种融合策略,单/双/三模态全覆盖
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述细致
- 价值: ⭐⭐⭐⭐ 对情感计算+VLM交叉领域有参考价值