HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification¶

会议: CVPR 2025 (Workshop)
arXiv: 2603.12693
代码: EmotiEffLib / VD
领域: 人脸情感识别 / 情感计算
关键词: 面部表情识别, Valence-Arousal估计, Action Unit检测, 暴力检测, EfficientNet, MLP

一句话总结¶

HSEmotion 团队在 ABAW-10 竞赛中提出了一个轻量级 pipeline：用预训练 EfficientNet 提取面部 embedding，结合 MLP + GLA（Generalized Logit Adjustment）+ 滑窗平滑，在四项任务（EXPR/VA/AU/VD）上均大幅超过官方 baseline，其中暴力检测任务使用 ConvNeXt-T + TCN 达到 0.783 macro F1。

研究背景与动机¶

领域现状：ABAW（Affective Behavior Analysis in-the-Wild）竞赛是情感计算的主流 benchmark，第10届包含四项任务：面部表情分类（EXPR）、Valence-Arousal 连续估计（VA）、Action Unit 检测（AU）、细粒度暴力检测（VD）。
核心挑战：真实场景数据面临遮挡、姿态/光照变化、域偏移、标签噪声、类别不平衡等问题。现有方法通常需要复杂的时序建模（Transformer/TCN）和多模态融合，计算成本高。
本文切入角度：不追求架构复杂度，而是用高质量预训练 encoder + 简单 MLP + 后处理技巧（GLA、置信度过滤、滑窗平滑）实现 "简单但有效" 的 pipeline。
核心思路：预训练模型已具有很强特征提取能力，关键在于如何高效利用这些特征并处理类别不平衡和帧间噪声问题。

方法详解¶

面部表情分类（EXPR）¶

特征提取：用 EmotiEffNet-B0（EfficientNet 在 AffectNet 上预训练）提取面部 embedding
MLP 分类器：单隐层 MLP，训练用加权 softmax loss 处理类别不平衡
GLA（Generalized Logit Adjustment）：在验证集上搜索每类 bias \(b_y^*\)，最大化 F1 score，有效校正类先验偏差
置信度过滤：若预训练模型输出的最高概率 \(> p_0\)（0.8-0.9），直接采用其预测；否则用 MLP 分类
时序平滑：滑窗对相邻帧概率取平均，消除帧级噪声
可选音频融合：提取 wav2vec 2.0 特征，训练单独 MLP，与视觉分支加权融合

Valence-Arousal 估计（VA）¶

用 MT-DDAMFN 预训练模型提取 embedding，无隐层 MLP 回归
损失函数结合 MSE 和 CCC（Concordance Correlation Coefficient）
同样使用滑窗平滑

Action Unit 检测（AU）¶

12 个 AU 的多标签分类，MLP + sigmoid 输出
使用加权 BCEWithLogitsLoss，正类权重按频率计算
创新点：融合 embedding 和 logits 两个 MLP 的预测（blending）
逐 AU 搜索最优阈值（而非统一 0.5）

暴力检测（VD）¶

最佳单流模型：ConvNeXt-T（ImageNet-1K 预训练）提取 768-d 帧特征 + 5 层 dilated TCN
多模态变体：加入 MediaPipe Pose 骨架特征（406-d → 256-d），cross-attention 融合 + BiLSTM
训练使用 AdamW + OneCycleLR + TrivialAugmentWide，正类权重 1.15

实验关键数据¶

EXPR 分类（AffWild2 验证集）¶

方法	F1-score	Accuracy
Baseline VGGFACE	25.0	-
EmotiEffNet, GLA, 滑窗	44.85	55.41
EmotiEffNet, GLA, 过滤+滑窗	45.79	55.69
EmotiEffNet + wav2vec, GLA, 过滤+滑窗	47.40	57.98
对比：CLIP+TCN [68]	46.51	-

VA 估计（AffWild2 验证集）¶

方法	CCC_V	CCC_A	\(P_{VA}\)
Baseline ResNet-50	0.24	0.20	0.22
MT-DDAMFN, MLP, 滑窗	0.510	0.615	0.562
对比：CLIP+TCN [68]	0.562	0.612	0.587

AU 检测（AffWild2 验证集）¶

方法	F1-score
Baseline VGGFACE	39.0
EmotiEffNet, logits+embeddings, 滑窗, 最优阈值	54.7
对比：CLIP+TCN [68]	58.0

暴力检测（DVD 验证集）¶

方法	F1_V	F1_NV	Macro F1
Baseline ResNet-50 + BiLSTM	0.56	0.71	0.640
ConvNeXt-T + TCN	0.738	0.828	0.783
ConvNeXt-T + Skel. attn + BiLSTM	0.715	0.828	0.772

关键发现¶

2D 预训练 encoder + 简单时序头一致优于 3D video backbone（如 SlowFast、VideoMAE）
光流双流融合反而不如纯 RGB ConvNeXt-T
GLA 对类别不平衡的校正效果显著（F1 从 38.68 → 41.40）
置信度过滤 + 滑窗平滑分别贡献约 1-2% 的 F1 提升
逐 AU 阈值搜索比统一 0.5 阈值持续提升约 0.2-0.5%

亮点¶

极致的工程简洁性：整个 EXPR pipeline 只有预训练 encoder + 单层 MLP + 三个后处理技巧，却达到接近 SOTA 的性能
GLA 的有效应用：将 post-hoc logit 调整从通用分类迁移到情感识别场景，简单有效
置信度过滤的直觉：预训练模型已经对高置信样本有准确判断，低置信样本才需要额外分类器
VD 任务的系统性消融：测试了大量 backbone/temporal head/多模态组合，结论清晰

局限性¶

方法论创新有限——主要是已有技术（EfficientNet + MLP + GLA + 平滑）的工程组合
EXPR/VA/AU 三项任务与历年 ABAW 最优方案仍有差距（尤其是 AU 检测落后 CLIP+TCN 约 3.3%）
VA 估计仅用单帧 + 简单平滑，未充分利用时序依赖
音频模态集成较粗糙（简单加权融合），未探索 cross-attention 等更精细的融合方式
暴力检测仅在 DVD 数据集上测试，泛化性待验证

评分¶

新颖性: ⭐⭐ 方法论创新有限，主要是成熟技术的组合
实验充分度: ⭐⭐⭐⭐ 四项任务均有详细消融，VD 对比了大量架构
写作质量: ⭐⭐⭐ 结构清晰但偏 technical report 风格
价值: ⭐⭐⭐ 作为竞赛方案有工程参考价值，展示了"简单方法"的上限