🎵 音频/语音¶

📷 CVPR2025 · 共 1 篇

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach: 本文提出面向视频级矛盾/犹豫（A/H）识别的多模态方法，整合场景（VideoMAE）、面部（EmotionEfficientNetB0）、音频（EmotionWav2Vec2.0+Mamba）和文本（EmotionDistilRoBERTa）四种模态，通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1，最终以五模型集成在测试集达到 71.43%。