跳转至

BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy

会议: CVPR 2026
arXiv: 2603.14361
代码: 未开源
领域: audio_speech / affective_computing
关键词: 矛盾与犹豫识别, 多模态融合, 集成学习, 粒子群优化, 行为分析

一句话总结

提出一个高度正则化的多模态融合管线,通过视觉(SigLip2)、音频(HuBERT)、文本(F2LLM)及统计特征四模态的异质分类器委员会,结合带训练-验证差距惩罚的 PSO 硬投票集成,实现自然场景下矛盾与犹豫(A/H)行为的鲁棒视频级识别,在 ABAW10 测试集上取得 Macro F1 = 0.7465。

研究背景与动机

  1. 矛盾/犹豫识别的重要性:矛盾(Ambivalence)和犹豫(Hesitancy)是人们在健康行为改变中的主要心理障碍,自动检测对数字行为干预有重要意义。
  2. 与基础情绪的本质区别:A/H 不同于"开心""愤怒"等离散情绪,它是一种微妙的内在冲突状态,表现为正负态度间的灰色地带,传统固定类别的情绪识别系统难以准确捕捉。
  3. 多模态线索的必要性:A/H 在面部表情、语调/语速和用词选择中均有体现,单模态方法难以全面建模这种跨通道的行为矛盾信号。
  4. 自然场景下的挑战:BAH 数据集来自 ABAW10 竞赛,参与者在非受控日常环境中录制,光照变化、背景噪声等因素增加了检测难度。
  5. 预训练情绪分类器的局限:将模型输出限制为固定情绪类别会阻碍更复杂、细粒度的多模态特征关系的有机涌现。
  6. 过拟合风险:训练集规模有限,多模态高维特征空间容易导致模型记忆训练分布而非学习泛化模式,需要强正则化策略。

方法详解

整体框架

管线分为四个阶段:(1) 四模态特征提取 → (2) 15 种模态组合 × 3 种分类器训练 → (3) 基于验证 BCE loss 的最优模型选择 → (4) PSO 硬投票集成。核心思想是将 A/H 视为多模态时序冲突而非静态情绪类别,通过异质分类器委员会保留各模态子集的独特优势,通过 PSO 正则化集成防止过拟合。

关键设计一:四模态特征提取

  • 做什么:分别提取视觉、音频、文本和统计四种模态的特征向量。
  • 核心思路
  • 视觉:RetinaFace 检测人脸 → SigLip2 提取嵌入 → MAD 过滤噪声帧 → 拼接原始/一阶/二阶导数均值(2304 维) → PCA 降至 512 维。
  • 音频:HuBERT 以 1 秒为单位提取音频嵌入,捕捉语调和节奏等非语言线索。
  • 文本:F2LLM 对整段转录文本提取全局嵌入,保留完整的语言上下文。
  • 统计模态:从前三模态的时间/句子级序列中聚合 min/max/mean/std 等统计量,另外包含 librosa 音频特征(RMS、频谱质心/带宽、过零率、静音比率、基频均值/方差)。
  • 设计动机:避免使用预训练情绪分类器的固定类别输出,让模型从基础嵌入空间中有机发现复杂关系;统计模态补充了直接序列处理可能丢失的时间/结构模式。

关键设计二:行为语言策略(文本统计)

  • 做什么:在统计模态中设计专门针对犹豫和矛盾的文本特征。
  • 核心思路
  • 犹豫检测(局部/句子级):将每句话与填充词、填充音、模糊语、自我纠正四类词典逐一计算余弦相似度,量化局部犹豫程度。
  • 矛盾检测(全局/文本级):基于情感、能力、借口、成功、动机、机会六类构造 prompt 嵌入,在中性/负面/正面/兼具四个极性上计算带温度的 softmax 相似度,捕捉文本中的态度冲突。
  • 设计动机:犹豫是高度局部化的(一句话中的停顿/模糊),而矛盾是全局性的(整段话中正负态度的交替),两者需要不同粒度的建模策略。

关键设计三:异质分类器委员会

  • 做什么:对 15 种模态组合(\(2^4 - 1\))分别训练 MLP、Random Forest、GBDT 三种分类器,选最优一个。
  • 核心思路:对每种组合,以验证集 BCE loss 作为选择标准(而非硬分类指标),保留概率校准(calibration)最好的模型,最终获得 15 个异质基模型。
  • 设计动机:MLP 在低维简单配置上占优,RF 在高维多模态拼接上防过拟合能力更强,不同模态子集的最优架构不同,委员会机制保留了这种多样性。

关键设计四:PSO 硬投票集成(含泛化惩罚)

  • 做什么:用粒子群优化在 15 维连续权重空间中搜索最佳硬投票权重。
  • 核心思路:每个基模型根据各自优化阈值输出二元投票,加权求和超过半数即为正类。PSO 适应度函数为训练/验证 F1 的调和均值减去差距惩罚: $\(\text{Fitness} = \frac{2 \cdot F1_{val} \cdot F1_{train}}{F1_{val} + F1_{train}} - (\lambda \cdot |F1_{train} - F1_{val}|)^2\)$
  • 设计动机:硬投票避免了概率分布平均的信息损失;调和均值强制训练/验证双高;平方差距惩罚项主动抑制过拟合和冗余分类器。随着 λ 增大,PSO 会将 9/15 模型权重归零,仅保留最可靠的 6 个模型。

损失函数与训练策略

  • 分类器训练:MLP 使用高斯噪声注入 + Batch Normalization + Dropout 正则化;RF 使用平衡类权重 + 深度限制 50;GBDT 使用极低学习率(1e-3)。
  • 模型选择:基于验证集 BCE loss 选择最优分类器,关注概率校准而非硬分类边界。
  • 集成优化:PSO 50 粒子 × 100 轮;惯性权重 w=0.9(鼓励探索)、认知参数 c₁=1.5、社会参数 c₂=2.1;λ 在 {0.0, 0.2, 0.4, 0.6, 0.8} 中搜索,各实验独立运行。

实验关键数据

表1:各模态组合的最优分类器选择(验证集 BCE loss 与 Macro F1)

模态组合 MLP BCE / F1 RF BCE / F1 GBDT BCE / F1 胜出
Text 0.573 / 0.728 0.623 / 0.661 0.631 / 0.678 MLP
Audio 0.675 / 0.632 0.695 / 0.599 0.692 / 0.597 MLP
Video 0.747 / 0.523 0.696 / 0.464 0.696 / 0.470 GBDT
Stats 0.650 / 0.693 0.634 / 0.641 0.640 / 0.632 RF
Text+Audio 0.593 / 0.701 0.632 / 0.641 0.639 / 0.654 MLP
Text+Video 0.688 / 0.536 0.624 / 0.669 0.632 / 0.669 RF
All Modalities 0.696 / 0.595 0.627 / 0.660 0.636 / 0.654 RF

关键发现:文本是最强单模态(F1=0.728),视频最弱(F1=0.470);MLP 在简单配置胜出,RF 在高维多模态组合中更优(赢得 7/15)。

表2:PSO 集成在不同惩罚系数 λ 下的性能(Macro F1)

惩罚系数 λ 训练 F1 验证 F1 测试 F1
0.0 (无惩罚) 0.974 0.736 0.740
0.2 (20%) 0.982 0.736 0.747
0.4 (40%) 0.965 0.758 0.741
0.6 (60%) 0.965 0.758 0.741
0.8 (80%) 0.978 0.749 0.742

关键发现:λ=0.2 取得最佳测试 Macro F1(0.7465)和 Weighted F1(0.7559);适度正则化比无惩罚和过度惩罚都更好。

亮点与洞察

  1. 统计模态的创新设计:第四模态不是简单的手工特征,而是针对犹豫(局部句子级)和矛盾(全局文本级)分别设计了不同粒度的行为语言策略,心理学启发性强。
  2. PSO 泛化惩罚的有效性:差距惩罚项不仅提升了泛化性能,还自动完成了模型选择——高 λ 值下 PSO 将 9/15 模型权重归零,文本和 Text+Video+Stats 始终保持最高权重。
  3. 委员会 vs. 端到端:没有训练复杂的端到端多模态 Transformer,而是通过异质分类器 + 智能集成达到了竞争力水平,方法简洁且可解释性好。

局限性

  1. 缺少端到端时序建模:所有特征都经过统计池化压缩为视频级向量,丧失了细粒度的时序动态信息,对长视频中的犹豫-矛盾转换过程建模不足。
  2. 视频模态表现差:单独视觉 F1 仅 0.47,说明 SigLip2 虽是强通用视觉模型,但对微妙面部矛盾信号的捕捉仍有限,可能需要专门的面部动作单元(AU)建模。
  3. 数据集规模受限:BAH 数据集相对小,PSO 的 15 维搜索空间在小数据上容易不稳定,各次运行结果可能有较大方差。
  4. 未利用大语言模型的推理能力:文本模态仅用嵌入做分类,未利用 LLM 对犹豫/矛盾的语义推理能力(相比 Video-LLaVA baseline 的思路)。

相关工作与启发

  • González-González et al. (ICLR 2026):BAH 数据集提出者,用 Video-LLaVA 零样本达到 F1=0.634,本文大幅超越。
  • HSEmotion (ABAW-8):使用 EmotiEffLib + 轻量 MLP 融合,思路类似但本文在特征提取和集成策略上更精细。
  • 启发:(1) 对于模糊/混合情感状态,避免预训练分类器的固定类别限制比追求更强的backbone更重要;(2) PSO 差距惩罚是一种通用的集成正则化策略,可迁移到其他小数据多模态任务。

评分

  • 新颖性: ⭐⭐⭐ — 核心贡献在统计模态和 PSO 正则化集成的工程设计,思路实用但理论突破有限
  • 实验充分度: ⭐⭐⭐⭐ — 15 种模态组合 × 3 种分类器的系统消融 + 5 组 λ 值对比,分析全面
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰、方法描述条理分明、实验分析到位
  • 价值: ⭐⭐⭐ — 竞赛性质的工作,方法可复现且集成策略有参考价值,但通用性仍需验证