Bounds on Agreement between Subjective and Objective Measurements¶

会议: CVPR 2026
arXiv: 2603.13204
代码: 无
领域: 图像/视频/语音质量评估 / 统计建模
关键词: 质量评估, MOS, PCC上界, MSE下界, BinoVotes

一句话总结¶

从投票的基本统计性质出发，推导了主观MOS与任意客观评估指标间PCC上界和MSE下界的解析表达式，并提出基于二项分布的投票模型BinoVotes/BinoMOS，为无投票方差数据的场景提供性能天花板估计。

背景与动机¶

客观质量评估模型通常以PCC或MSE与主观MOS的吻合度来衡量性能，但研究者习惯追求PCC=1或MSE=0，这忽略了一个根本事实：MOS本身是离散有限量表上有限投票的均值，天然包含噪声。不同数据集的投票方差不同，能达到的PCC/MSE上下限也不同。现有工作虽提出过分类错误率、epsilon-insensitive RMSE等替代指标，但缺少基于PCC和MSE本身的理论上界/下界推导。

核心问题¶

给定一个主观测试的投票方差和MOS分布，客观评估模型能达到的PCC最高是多少？MSE最低是多少？如何在不提供投票方差的数据集上也能估计这个上界？

方法详解¶

整体框架¶

假设投票是well-behaved的（即投票期望等于真实质量），利用全方差公式和投票方差函数v_r(Y)推导出MSE下界和PCC上界的解析表达式。然后提出BinoVotes投票模型提供v_r(Y)的参数化形式，使得即使没有投票方差数据也能估计上界。

关键设计¶

MSE下界推导: E(D^2) = E(v_r(Y)) / n_v。MSE的期望值等于投票方差的期望除以每文件投票数。等价解释：E(D^2) = Var(X) - Var(Y)，即MSE是MOS方差超出真实质量方差的部分。
PCC上界推导: rho(X,Y) = sqrt(Var(Y)/Var(X)) = sqrt((Var(X) - E(D^2))/Var(X))。PCC上界同样是投票方差和投票数的函数。更多投票则更低的MSE下界和更高的PCC上界。
BinoVotes投票模型: 将单个投票建模为缩放平移后的二项分布随机变量。天然满足well-behaved条件E(R|Y)=Y，投票方差为优美的抛物线 v_r(Y) = (Y-s_L)(s_H-Y)/(n_s-1)，在量表两端为零、中心最大，符合直觉和实测数据趋势。

损失函数 / 训练策略¶

本文是统计理论工作，无训练过程。推导基于全方差公式、全期望公式和独立同分布假设。

实验关键数据¶

统计量	范围	说明
18个主观测试	86,450个文件，493,000+投票	涵盖语音/图像/视频质量
n_v范围	3.52 ~ 28.33	每文件平均投票数
PCC上界	0.86 ~ 0.99	取决于投票数和方差
RMSE下界	0.12 ~ 0.51	取决于投票数和方差
BinoVotes vs 数据	平均差异0.13	BinoVotes预测的投票方差vs实际观测方差
BinoVotes-PCC vs 数据	最大差异0.021	BinoVotes估计的PCC上界vs完全数据驱动上界
全局平均方差	0.64	18个测试的平均观测投票方差

4个无方差信息的数据集（VCC18, IU, VMC22, Tencent）成功用BinoVotes估计了上界
投票数越多PCC上界越高、RMSE下界越低，但边际收益递减

消融实验要点¶

三种上界估计方法比较：完全数据驱动（有投票方差）约等于BinoVotes模型（无方差）约等于全局平均方差（最粗略）
BinoVotes倾向于高估投票方差（因为真人倾向于避免极端评分），但对上界估计影响有限
样本相关系数在n_f>=50后快速收敛到总体相关，因此总体PCC上界足够实用

亮点¶

从最基本的假设（投票期望=真实质量）出发，推导出高度实用的PCC/MSE上界
任何人拿到数据集做简单计算就能知道还能优化多少
BinoVotes模型极其简洁（单参数Y），却天然满足投票方差在量表两端为零的物理约束
覆盖22个主观测试的验证，跨语音/图像/视频领域

局限性 / 可改进方向¶

假设投票独立同分布，Per-subject bias通过增大方差隐式处理，但未建模更复杂的依赖结构
以PCC和MSE为主，未扩展到SRCC（作者也承认是future work）
视频/图像质量类数据集较少（仅2个图像+2个视频），以语音为主
上界是期望值，个别测试中客观模型偶尔可以超过上界，需要理解这是统计概念

与相关工作的对比¶

与Hossfeld等人(2011)的SOS方差模型对比：BinoVotes的抛物线缩放因子0.25与28个测试的中位值0.24高度一致
与epsilon-insensitive RMSE、分类错误率等替代指标不同，本文直接约束最常用的PCC和MSE
与Janowski和Pinson(2015)的噪声模型互补：他们建模噪声来源，本文直接推导性能上界

启发与关联¶

对任何使用MOS评估的领域（图像/视频/语音质量、美学评分等）都直接适用
提醒研究者不要盲目追求PCC=1.0，应该先计算自己数据集的上界
BinoVotes思路可能启发更好的MOS不确定性建模

评分¶

新颖性: ⭐⭐⭐⭐ 将直觉（MOS有噪声上限）转化为严格数学上界，BinoVotes模型优雅
实验充分度: ⭐⭐⭐⭐ 22个主观测试验证充分，但视觉领域覆盖偏少
写作质量: ⭐⭐⭐⭐⭐ 推导简洁清晰，层层推进，符号一致
价值: ⭐⭐⭐ 理论贡献扎实但偏小众，对质量评估社区有直接实用价值