Beyond the Mean: Modelling Annotation Distributions in Continuous Affect Prediction¶

会议: CVPR 2026
arXiv: 2604.07198
代码: 无
领域: 多模态视觉语言模型/情感计算
关键词: 情感预测, 标注分布建模, Beta分布, 标注者分歧, 不确定性

一句话总结¶

提出基于Beta分布的情感标注共识建模框架，模型仅预测标注分布的均值和标准差，即可通过矩匹配闭式推导出偏度、峰度、分位数等高阶描述子，在SEWA和RECOLA上证明Beta分布能有效捕获标注者分歧的完整分布特性。

领域现状：连续情感预测（valence-arousal）中，多个标注者对同一行为的感知通常存在分歧。这种分歧反映了情感信号的内在主观性，而非简单的标注噪声。

核心痛点：主流方法将标注折叠为点估计（均值或中位数），丢失了关于标注者分歧、不确定性和分布形态的丰富信息。这隐式假设分歧是噪声而非有意义的信号。

后果：忽略标注变化性可能损害模型的泛化和校准能力，尤其在医疗、教育等高风险应用中。

核心idea：用Beta分布建模标注分布——(1)定义在[0,1]区间上，天然适合归一化情感维度；(2)参数灵活（可表示对称、偏斜、集中分布）；(3)从\((μ,σ)\)可闭式推导所有高阶统计量。

标注者信号 → 计算经验 \((μ, σ)\) → 矩匹配映射到Beta参数 \((α, β)\) → 多模态特征 → ANN预测 \((μ, σ)\) → 反推Beta分布 → 闭式推导偏度/峰度/分位数

Beta分布矩匹配：给定标注者经验均值 \(μ\) 和方差 \(σ^2\)： \(\phi = \frac{\mu(1-\mu)}{\sigma^2} - 1, \quad \alpha = \mu\phi, \quad \beta = (1-\mu)\phi\) 约束：\(0 < \mu < 1\)，\(0 < \sigma^2 < \mu(1-\mu)\)，确保 \(\alpha, \beta > 0\)
- 为什么选Beta分布：区间有界特性匹配情感维度的值域；形状灵活性捕获标注者行为的多样模式
高阶描述子闭式推导：
- 偏度：\(\text{Skew}(X) = \frac{2(\beta-\alpha)\sqrt{\alpha+\beta+1}}{(\alpha+\beta+2)\sqrt{\alpha\beta}}\) → 捕获标注分歧的不对称性
- 峰度：衡量标注集中程度
- 分位数：通过正则化不完全Beta函数逆求得
- 优势：模型只需学习预测 \((μ, σ)\) 两个标量，所有高阶统计量免费获得
模型变体：
- \(M_I\)：两个独立网络分别预测 \(μ\) 和 \(σ\)
- \(M_S\)：共享第一层+分叉第二层
- \(M_F\)：完全共享网络+两个输出头
- 基线 \(B\)：对每个描述子（\(μ, σ\), 偏度, 峰度, 分位数）单独训练回归网络

数据集	模态	模型	Arousal μ	Arousal σ	Valence μ	Valence σ
RECOLA	Audio	\(M_I\)	0.19	0.04	0.54	0.25
RECOLA	Fusion	\(M_I\)	0.24	0.01	0.48	0.26
SEWA	Visual	\(M_F\)	0.80	0.61	0.76	0.51
SEWA	Fusion	\(M_F\)	0.76	0.65	0.78	0.57

数据集/模态	描述子	基线B	Beta模型M	说明
RECOLA Audio	median	0.16	0.18	Beta推导更优
RECOLA Audio	q25	0.12	0.18	显著优于直接回归
RECOLA Fusion	median	0.30	0.31	略优
SEWA Visual	skew	0.21	0.19	个别指标基线略好

数据集	模态	对比均匀分布 \(\mathcal{U}\)	对比真实Beta \(\mathcal{B}\)
RECOLA	Audio	13.59	0.64
SEWA	Visual	2.40	0.78