BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy¶

会议: CVPR 2026
arXiv: 2603.14361
代码: 未开源
领域: audio_speech / affective_computing
关键词: 矛盾与犹豫识别, 多模态融合, 集成学习, 粒子群优化, 行为分析

一句话总结¶

提出一个高度正则化的多模态融合管线，通过视觉(SigLip2)、音频(HuBERT)、文本(F2LLM)及统计特征四模态的异质分类器委员会，结合带训练-验证差距惩罚的 PSO 硬投票集成，实现自然场景下矛盾与犹豫（A/H）行为的鲁棒视频级识别，在 ABAW10 测试集上取得 Macro F1 = 0.7465。

研究背景与动机¶

矛盾/犹豫识别的重要性：矛盾（Ambivalence）和犹豫（Hesitancy）是人们在健康行为改变中的主要心理障碍，自动检测对数字行为干预有重要意义。
与基础情绪的本质区别：A/H 不同于"开心""愤怒"等离散情绪，它是一种微妙的内在冲突状态，表现为正负态度间的灰色地带，传统固定类别的情绪识别系统难以准确捕捉。
多模态线索的必要性：A/H 在面部表情、语调/语速和用词选择中均有体现，单模态方法难以全面建模这种跨通道的行为矛盾信号。
自然场景下的挑战：BAH 数据集来自 ABAW10 竞赛，参与者在非受控日常环境中录制，光照变化、背景噪声等因素增加了检测难度。
预训练情绪分类器的局限：将模型输出限制为固定情绪类别会阻碍更复杂、细粒度的多模态特征关系的有机涌现。
过拟合风险：训练集规模有限，多模态高维特征空间容易导致模型记忆训练分布而非学习泛化模式，需要强正则化策略。

方法详解¶

整体框架¶

管线分为四个阶段：(1) 四模态特征提取 → (2) 15 种模态组合 × 3 种分类器训练 → (3) 基于验证 BCE loss 的最优模型选择 → (4) PSO 硬投票集成。核心思想是将 A/H 视为多模态时序冲突而非静态情绪类别，通过异质分类器委员会保留各模态子集的独特优势，通过 PSO 正则化集成防止过拟合。

关键设计一：四模态特征提取¶

做什么：分别提取视觉、音频、文本和统计四种模态的特征向量。
核心思路：
视觉：RetinaFace 检测人脸 → SigLip2 提取嵌入 → MAD 过滤噪声帧 → 拼接原始/一阶/二阶导数均值(2304 维) → PCA 降至 512 维。
音频：HuBERT 以 1 秒为单位提取音频嵌入，捕捉语调和节奏等非语言线索。
文本：F2LLM 对整段转录文本提取全局嵌入，保留完整的语言上下文。
统计模态：从前三模态的时间/句子级序列中聚合 min/max/mean/std 等统计量，另外包含 librosa 音频特征（RMS、频谱质心/带宽、过零率、静音比率、基频均值/方差）。
设计动机：避免使用预训练情绪分类器的固定类别输出，让模型从基础嵌入空间中有机发现复杂关系；统计模态补充了直接序列处理可能丢失的时间/结构模式。

关键设计二：行为语言策略（文本统计）¶

做什么：在统计模态中设计专门针对犹豫和矛盾的文本特征。
核心思路：
犹豫检测（局部/句子级）：将每句话与填充词、填充音、模糊语、自我纠正四类词典逐一计算余弦相似度，量化局部犹豫程度。
矛盾检测（全局/文本级）：基于情感、能力、借口、成功、动机、机会六类构造 prompt 嵌入，在中性/负面/正面/兼具四个极性上计算带温度的 softmax 相似度，捕捉文本中的态度冲突。
设计动机：犹豫是高度局部化的（一句话中的停顿/模糊），而矛盾是全局性的（整段话中正负态度的交替），两者需要不同粒度的建模策略。

关键设计三：异质分类器委员会¶

做什么：对 15 种模态组合（$2^4 - 1$）分别训练 MLP、Random Forest、GBDT 三种分类器，选最优一个。
核心思路：对每种组合，以验证集 BCE loss 作为选择标准（而非硬分类指标），保留概率校准（calibration）最好的模型，最终获得 15 个异质基模型。
设计动机：MLP 在低维简单配置上占优，RF 在高维多模态拼接上防过拟合能力更强，不同模态子集的最优架构不同，委员会机制保留了这种多样性。

关键设计四：PSO 硬投票集成（含泛化惩罚）¶

做什么：用粒子群优化在 15 维连续权重空间中搜索最佳硬投票权重。
核心思路：每个基模型根据各自优化阈值输出二元投票，加权求和超过半数即为正类。PSO 适应度函数为训练/验证 F1 的调和均值减去差距惩罚： $$\text{Fitness} = \frac{2 \cdot F1_{val} \cdot F1_{train}}{F1_{val} + F1_{train}} - (\lambda \cdot |F1_{train} - F1_{val}|)^2$$
设计动机：硬投票避免了概率分布平均的信息损失；调和均值强制训练/验证双高；平方差距惩罚项主动抑制过拟合和冗余分类器。随着 λ 增大，PSO 会将 9/15 模型权重归零，仅保留最可靠的 6 个模型。

损失函数与训练策略¶

分类器训练：MLP 使用高斯噪声注入 + Batch Normalization + Dropout 正则化；RF 使用平衡类权重 + 深度限制 50；GBDT 使用极低学习率（1e-3）。
模型选择：基于验证集 BCE loss 选择最优分类器，关注概率校准而非硬分类边界。
集成优化：PSO 50 粒子 × 100 轮；惯性权重 w=0.9（鼓励探索）、认知参数 c₁=1.5、社会参数 c₂=2.1；λ 在 {0.0, 0.2, 0.4, 0.6, 0.8} 中搜索，各实验独立运行。

实验关键数据¶

表1：各模态组合的最优分类器选择（验证集 BCE loss 与 Macro F1）¶

模态组合	MLP BCE / F1	RF BCE / F1	GBDT BCE / F1	胜出
Text	0.573 / 0.728	0.623 / 0.661	0.631 / 0.678	MLP
Audio	0.675 / 0.632	0.695 / 0.599	0.692 / 0.597	MLP
Video	0.747 / 0.523	0.696 / 0.464	0.696 / 0.470	GBDT
Stats	0.650 / 0.693	0.634 / 0.641	0.640 / 0.632	RF
Text+Audio	0.593 / 0.701	0.632 / 0.641	0.639 / 0.654	MLP
Text+Video	0.688 / 0.536	0.624 / 0.669	0.632 / 0.669	RF
All Modalities	0.696 / 0.595	0.627 / 0.660	0.636 / 0.654	RF

关键发现：文本是最强单模态（F1=0.728），视频最弱（F1=0.470）；MLP 在简单配置胜出，RF 在高维多模态组合中更优（赢得 7/15）。

表2：PSO 集成在不同惩罚系数 λ 下的性能（Macro F1）¶

惩罚系数 λ	训练 F1	验证 F1	测试 F1
0.0 (无惩罚)	0.974	0.736	0.740
0.2 (20%)	0.982	0.736	0.747
0.4 (40%)	0.965	0.758	0.741
0.6 (60%)	0.965	0.758	0.741
0.8 (80%)	0.978	0.749	0.742

关键发现：λ=0.2 取得最佳测试 Macro F1（0.7465）和 Weighted F1（0.7559）；适度正则化比无惩罚和过度惩罚都更好。

亮点与洞察¶

统计模态的创新设计：第四模态不是简单的手工特征，而是针对犹豫（局部句子级）和矛盾（全局文本级）分别设计了不同粒度的行为语言策略，心理学启发性强。
PSO 泛化惩罚的有效性：差距惩罚项不仅提升了泛化性能，还自动完成了模型选择——高 λ 值下 PSO 将 9/15 模型权重归零，文本和 Text+Video+Stats 始终保持最高权重。
委员会 vs. 端到端：没有训练复杂的端到端多模态 Transformer，而是通过异质分类器 + 智能集成达到了竞争力水平，方法简洁且可解释性好。

局限性¶

缺少端到端时序建模：所有特征都经过统计池化压缩为视频级向量，丧失了细粒度的时序动态信息，对长视频中的犹豫-矛盾转换过程建模不足。
视频模态表现差：单独视觉 F1 仅 0.47，说明 SigLip2 虽是强通用视觉模型，但对微妙面部矛盾信号的捕捉仍有限，可能需要专门的面部动作单元（AU）建模。
数据集规模受限：BAH 数据集相对小，PSO 的 15 维搜索空间在小数据上容易不稳定，各次运行结果可能有较大方差。
未利用大语言模型的推理能力：文本模态仅用嵌入做分类，未利用 LLM 对犹豫/矛盾的语义推理能力（相比 Video-LLaVA baseline 的思路）。

评分¶

新颖性: ⭐⭐⭐ — 核心贡献在统计模态和 PSO 正则化集成的工程设计，思路实用但理论突破有限
实验充分度: ⭐⭐⭐⭐ — 15 种模态组合 × 3 种分类器的系统消融 + 5 组 λ 值对比，分析全面
写作质量: ⭐⭐⭐⭐ — 动机清晰、方法描述条理分明、实验分析到位
价值: ⭐⭐⭐ — 竞赛性质的工作，方法可复现且集成策略有参考价值，但通用性仍需验证