Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach¶

会议: CVPR 2026 (ABAW Workshop)
arXiv: 2603.13056
代码: 有(GitHub)
领域: 情感计算 / 连续情感识别
关键词: 效价-唤醒估计, 多模态融合, VLM行为描述, Mamba, ABAW竞赛

一句话总结¶

提出三模态连续VA估计方法，首次将VLM(Qwen3-VL-4B)生成的情感行为描述嵌入作为独立模态，与GRADA人脸编码器和WavLM音频特征通过两种融合策略(DCMMOE和RAAV)组合，在Aff-Wild2上达到CCC 0.658(dev)/0.62(test)。

背景与动机¶

连续效价-唤醒(VA)估计在野外条件下仍然困难——外观变化大、头部姿态多样、遮挡频繁、音频噪声大。此前ABAW挑战赛的SOTA方法主要使用人脸+音频+跨注意力融合，但未探索利用VLM提取行为级语义描述（如面部表情变化、手势、身体姿态）作为新的模态。VLM可以捕获传统特征提取器难以编码的上下文和情境线索。

核心问题¶

如何将VLM的行为理解能力有效整合到连续VA估计管线中？核心挑战：(1)VLM输出是段级而非帧级，需要时序对齐；(2)音频在野外视频中常含噪声/非语音段，需要可靠性过滤；(3)三种模态的时间分辨率和信息密度差异大，需要自适应融合。

方法详解¶

整体框架¶

三路独立单模态编码 → 两种融合策略：DCMMOE(有向跨模态MoE)和RAAV(可靠性感知音视频融合)。

关键设计¶

GRADA人脸模型: EfficientNet-B1在10个情感数据集上多任务微调(7.9M参数)，输出256维帧级情感嵌入。Transformer时序回归在长度\(L=400\)、步长\(S=150\)的滑动窗口上建模。YOLO人脸检测+手动身份标注确保单一目标。
Qwen3-VL行为描述模型: 用Qwen3-VL-4B-Instruct处理16帧视频段+情感导向prompt（"描述此人的面部表情、身体姿态、手势、头部动作及场景..."），提取最后隐藏层token作为段级行为嵌入。两种设置：纯视觉嵌入(仅视觉token)和多模态嵌入(视频+文本联合)。段级嵌入经Mamba编码器(4-12层, hidden 128-256, state 8)建模时序动态，帧级预测通过段到帧展开+重叠平均获得。
WavLM-Large音频模型: 用嘴部开合(MediaPipe)做跨模态过滤——仅保留张嘴时长和标注覆盖率超阈值的段。微调WavLM-Large顶部4层，4秒段分为4个时间块，每块用注意力统计池化(加权均值+加权标准差)聚合。
两种融合策略:
DCMMOE: 对\(M\)个模态的所有\(M(M-1)\)有序对建立交叉注意力专家，门控网络按时间步自适应加权——显式建模有向的跨模态交互
RAAV: 帧级融合——人脸和行为特征通过masked可靠性门控加权求和，音频作为辅助上下文通过bottleneck交叉注意力注入

损失函数 / 训练策略¶

混合CCC损失+可选MAE项。AdamW, lr=1e-4, batch 8, ReduceLROnPlateau。各模态不同配置经网格搜索确定。

实验关键数据¶

ID	配置	Valence CCC	Arousal CCC	Avg CCC	Test
1	人脸: GRADA+Transformer	0.587	0.651	0.619	0.54
2	行为: Qwen3视觉+Mamba	0.250	0.551	0.401	-
3	行为: Qwen3多模态+Mamba	0.429	0.648	0.539	-
4	音频: WavLM+块池化	0.342	0.464	0.403	-
5	人脸+音频 DCMMOE	0.625	0.667	0.646	0.58
7	人脸+行为(多模态)+音频 DCMMOE	0.610	0.688	0.649	0.61
8	人脸+行为(多模态)+音频 RAAV	0.608	0.707	0.658	0.62

消融实验要点¶

Qwen3多模态嵌入(0.539)大幅优于纯视觉嵌入(0.401)——文本prompt引导的行为理解至关重要
三模态融合(0.649-0.658)一致优于双模态(0.646)和单模态(0.619)
RAAV在arousal上特别强(0.707)，DCMMOE在valence上稍优(0.625 vs 0.608)
音频跨模态过滤（嘴部开合检测）有效减少噪声段干扰
视觉Qwen3嵌入(0.250 valence)与纯视觉方法差距极大，说明VLM视觉特征直接用于回归效果差，需多模态上下文

亮点¶

首次将VLM行为描述作为独立模态用于连续VA估计——这是一个新颖且有启发性的方向
Qwen3多模态 vs 纯视觉的巨大差距(0.539 vs 0.401)清晰展示了文本prompt引导的价值
RAAV的非对称设计（视觉决定时间分辨率，音频提供补充上下文）反映了任务特性
嘴部开合做音频可靠性过滤是简单有效的跨模态策略

局限性 / 可改进方向¶

Qwen3段级嵌入→帧级展开的时间分辨率损失，segment长度和prompt设计需更多探索
RAAV中音频仅作为补充上下文（bottleneck），可能限制了音频信息的利用
Aff-Wild2约3M帧但仅594个视频和584个受试者，个体差异可能主导结果
Dev(0.658)到test(0.62)的性能下降提示泛化性不足

与相关工作的对比¶

Yu et al.(9th ABAW冠军): ResNet视觉+VGGish/LogMel音频+TCN+跨模态注意力。本文增加了VLM行为模态
Praveen et al.(8th ABAW): 门控递归联合跨注意力(GR-JCA)做双模态融合。本文用DCMMOE建模所有有向对
Savchenko(CVPRW22-25): 轻量EfficientNet+文本+音频。本文用更重的VLM但获得了行为级语义

启发与关联¶

VLM行为描述作为"额外模态"的思路可推广到其他视频理解任务——动作识别、社交信号处理等
Mamba处理VLM段级嵌入序列是自然选择——SSM适合中等长度序列建模

评分¶

新颖性: ⭐⭐⭐⭐ 首次将VLM行为描述用于连续VA估计，多模态vs视觉嵌入的对比有洞察力
实验充分度: ⭐⭐⭐⭐ 8种配置系统对比，两种融合策略，单/双/三模态全覆盖
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述细致
价值: ⭐⭐⭐⭐ 对情感计算+VLM交叉领域有参考价值