BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy¶
会议: CVPR 2026
arXiv: 2603.14361
代码: 未开源
领域: audio_speech / affective_computing
关键词: 矛盾与犹豫识别, 多模态融合, 集成学习, 粒子群优化, 行为分析
一句话总结¶
提出一个高度正则化的多模态融合管线,通过视觉(SigLip2)、音频(HuBERT)、文本(F2LLM)及统计特征四模态的异质分类器委员会,结合带训练-验证差距惩罚的 PSO 硬投票集成,实现自然场景下矛盾与犹豫(A/H)行为的鲁棒视频级识别,在 ABAW10 测试集上取得 Macro F1 = 0.7465。
研究背景与动机¶
- 矛盾/犹豫识别的重要性:矛盾(Ambivalence)和犹豫(Hesitancy)是人们在健康行为改变中的主要心理障碍,自动检测对数字行为干预有重要意义。
- 与基础情绪的本质区别:A/H 不同于"开心""愤怒"等离散情绪,它是一种微妙的内在冲突状态,表现为正负态度间的灰色地带,传统固定类别的情绪识别系统难以准确捕捉。
- 多模态线索的必要性:A/H 在面部表情、语调/语速和用词选择中均有体现,单模态方法难以全面建模这种跨通道的行为矛盾信号。
- 自然场景下的挑战:BAH 数据集来自 ABAW10 竞赛,参与者在非受控日常环境中录制,光照变化、背景噪声等因素增加了检测难度。
- 预训练情绪分类器的局限:将模型输出限制为固定情绪类别会阻碍更复杂、细粒度的多模态特征关系的有机涌现。
- 过拟合风险:训练集规模有限,多模态高维特征空间容易导致模型记忆训练分布而非学习泛化模式,需要强正则化策略。
方法详解¶
整体框架¶
管线分为四个阶段:(1) 四模态特征提取 → (2) 15 种模态组合 × 3 种分类器训练 → (3) 基于验证 BCE loss 的最优模型选择 → (4) PSO 硬投票集成。核心思想是将 A/H 视为多模态时序冲突而非静态情绪类别,通过异质分类器委员会保留各模态子集的独特优势,通过 PSO 正则化集成防止过拟合。
关键设计一:四模态特征提取¶
- 做什么:分别提取视觉、音频、文本和统计四种模态的特征向量。
- 核心思路:
- 视觉:RetinaFace 检测人脸 → SigLip2 提取嵌入 → MAD 过滤噪声帧 → 拼接原始/一阶/二阶导数均值(2304 维) → PCA 降至 512 维。
- 音频:HuBERT 以 1 秒为单位提取音频嵌入,捕捉语调和节奏等非语言线索。
- 文本:F2LLM 对整段转录文本提取全局嵌入,保留完整的语言上下文。
- 统计模态:从前三模态的时间/句子级序列中聚合 min/max/mean/std 等统计量,另外包含 librosa 音频特征(RMS、频谱质心/带宽、过零率、静音比率、基频均值/方差)。
- 设计动机:避免使用预训练情绪分类器的固定类别输出,让模型从基础嵌入空间中有机发现复杂关系;统计模态补充了直接序列处理可能丢失的时间/结构模式。
关键设计二:行为语言策略(文本统计)¶
- 做什么:在统计模态中设计专门针对犹豫和矛盾的文本特征。
- 核心思路:
- 犹豫检测(局部/句子级):将每句话与填充词、填充音、模糊语、自我纠正四类词典逐一计算余弦相似度,量化局部犹豫程度。
- 矛盾检测(全局/文本级):基于情感、能力、借口、成功、动机、机会六类构造 prompt 嵌入,在中性/负面/正面/兼具四个极性上计算带温度的 softmax 相似度,捕捉文本中的态度冲突。
- 设计动机:犹豫是高度局部化的(一句话中的停顿/模糊),而矛盾是全局性的(整段话中正负态度的交替),两者需要不同粒度的建模策略。
关键设计三:异质分类器委员会¶
- 做什么:对 15 种模态组合(\(2^4 - 1\))分别训练 MLP、Random Forest、GBDT 三种分类器,选最优一个。
- 核心思路:对每种组合,以验证集 BCE loss 作为选择标准(而非硬分类指标),保留概率校准(calibration)最好的模型,最终获得 15 个异质基模型。
- 设计动机:MLP 在低维简单配置上占优,RF 在高维多模态拼接上防过拟合能力更强,不同模态子集的最优架构不同,委员会机制保留了这种多样性。
关键设计四:PSO 硬投票集成(含泛化惩罚)¶
- 做什么:用粒子群优化在 15 维连续权重空间中搜索最佳硬投票权重。
- 核心思路:每个基模型根据各自优化阈值输出二元投票,加权求和超过半数即为正类。PSO 适应度函数为训练/验证 F1 的调和均值减去差距惩罚: $\(\text{Fitness} = \frac{2 \cdot F1_{val} \cdot F1_{train}}{F1_{val} + F1_{train}} - (\lambda \cdot |F1_{train} - F1_{val}|)^2\)$
- 设计动机:硬投票避免了概率分布平均的信息损失;调和均值强制训练/验证双高;平方差距惩罚项主动抑制过拟合和冗余分类器。随着 λ 增大,PSO 会将 9/15 模型权重归零,仅保留最可靠的 6 个模型。
损失函数与训练策略¶
- 分类器训练:MLP 使用高斯噪声注入 + Batch Normalization + Dropout 正则化;RF 使用平衡类权重 + 深度限制 50;GBDT 使用极低学习率(1e-3)。
- 模型选择:基于验证集 BCE loss 选择最优分类器,关注概率校准而非硬分类边界。
- 集成优化:PSO 50 粒子 × 100 轮;惯性权重 w=0.9(鼓励探索)、认知参数 c₁=1.5、社会参数 c₂=2.1;λ 在 {0.0, 0.2, 0.4, 0.6, 0.8} 中搜索,各实验独立运行。
实验关键数据¶
表1:各模态组合的最优分类器选择(验证集 BCE loss 与 Macro F1)¶
| 模态组合 | MLP BCE / F1 | RF BCE / F1 | GBDT BCE / F1 | 胜出 |
|---|---|---|---|---|
| Text | 0.573 / 0.728 | 0.623 / 0.661 | 0.631 / 0.678 | MLP |
| Audio | 0.675 / 0.632 | 0.695 / 0.599 | 0.692 / 0.597 | MLP |
| Video | 0.747 / 0.523 | 0.696 / 0.464 | 0.696 / 0.470 | GBDT |
| Stats | 0.650 / 0.693 | 0.634 / 0.641 | 0.640 / 0.632 | RF |
| Text+Audio | 0.593 / 0.701 | 0.632 / 0.641 | 0.639 / 0.654 | MLP |
| Text+Video | 0.688 / 0.536 | 0.624 / 0.669 | 0.632 / 0.669 | RF |
| All Modalities | 0.696 / 0.595 | 0.627 / 0.660 | 0.636 / 0.654 | RF |
关键发现:文本是最强单模态(F1=0.728),视频最弱(F1=0.470);MLP 在简单配置胜出,RF 在高维多模态组合中更优(赢得 7/15)。
表2:PSO 集成在不同惩罚系数 λ 下的性能(Macro F1)¶
| 惩罚系数 λ | 训练 F1 | 验证 F1 | 测试 F1 |
|---|---|---|---|
| 0.0 (无惩罚) | 0.974 | 0.736 | 0.740 |
| 0.2 (20%) | 0.982 | 0.736 | 0.747 |
| 0.4 (40%) | 0.965 | 0.758 | 0.741 |
| 0.6 (60%) | 0.965 | 0.758 | 0.741 |
| 0.8 (80%) | 0.978 | 0.749 | 0.742 |
关键发现:λ=0.2 取得最佳测试 Macro F1(0.7465)和 Weighted F1(0.7559);适度正则化比无惩罚和过度惩罚都更好。
亮点与洞察¶
- 统计模态的创新设计:第四模态不是简单的手工特征,而是针对犹豫(局部句子级)和矛盾(全局文本级)分别设计了不同粒度的行为语言策略,心理学启发性强。
- PSO 泛化惩罚的有效性:差距惩罚项不仅提升了泛化性能,还自动完成了模型选择——高 λ 值下 PSO 将 9/15 模型权重归零,文本和 Text+Video+Stats 始终保持最高权重。
- 委员会 vs. 端到端:没有训练复杂的端到端多模态 Transformer,而是通过异质分类器 + 智能集成达到了竞争力水平,方法简洁且可解释性好。
局限性¶
- 缺少端到端时序建模:所有特征都经过统计池化压缩为视频级向量,丧失了细粒度的时序动态信息,对长视频中的犹豫-矛盾转换过程建模不足。
- 视频模态表现差:单独视觉 F1 仅 0.47,说明 SigLip2 虽是强通用视觉模型,但对微妙面部矛盾信号的捕捉仍有限,可能需要专门的面部动作单元(AU)建模。
- 数据集规模受限:BAH 数据集相对小,PSO 的 15 维搜索空间在小数据上容易不稳定,各次运行结果可能有较大方差。
- 未利用大语言模型的推理能力:文本模态仅用嵌入做分类,未利用 LLM 对犹豫/矛盾的语义推理能力(相比 Video-LLaVA baseline 的思路)。
相关工作与启发¶
- González-González et al. (ICLR 2026):BAH 数据集提出者,用 Video-LLaVA 零样本达到 F1=0.634,本文大幅超越。
- HSEmotion (ABAW-8):使用 EmotiEffLib + 轻量 MLP 融合,思路类似但本文在特征提取和集成策略上更精细。
- 启发:(1) 对于模糊/混合情感状态,避免预训练分类器的固定类别限制比追求更强的backbone更重要;(2) PSO 差距惩罚是一种通用的集成正则化策略,可迁移到其他小数据多模态任务。
评分¶
- 新颖性: ⭐⭐⭐ — 核心贡献在统计模态和 PSO 正则化集成的工程设计,思路实用但理论突破有限
- 实验充分度: ⭐⭐⭐⭐ — 15 种模态组合 × 3 种分类器的系统消融 + 5 组 λ 值对比,分析全面
- 写作质量: ⭐⭐⭐⭐ — 动机清晰、方法描述条理分明、实验分析到位
- 价值: ⭐⭐⭐ — 竞赛性质的工作,方法可复现且集成策略有参考价值,但通用性仍需验证