跳转至

🎵 音频/语音

📷 CVPR2025 · 共 1

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

本文提出面向视频级矛盾/犹豫(A/H)识别的多模态方法,整合场景(VideoMAE)、面部(EmotionEfficientNetB0)、音频(EmotionWav2Vec2.0+Mamba)和文本(EmotionDistilRoBERTa)四种模态,通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1,最终以五模型集成在测试集达到 71.43%。