Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles¶

日期: 2026-03-17
arXiv: 2603.17111
领域: 多模态/VLM
关键词: VLM集成, 家族偏差, 有效独立投票者, 多样性, 学习打分

一句话总结¶

揭示 VLM 集成中的家族相关误差（17个模型仅等价于 2.5-3.6 个独立投票者），提出 Hierarchical Family Voting 和 Learned Candidate Scoring 分别在 Misleading 层恢复 +18-26pp 和在 VQAv2 达到 87.83%。

领域现状: VLM 集成（多模型投票）是提升准确率的常见策略。Condorcet 陪审团定理保证独立投票者越多越好。现有方法（LLM-Blender、Mixture-of-Agents、self-consistency）基于独立性假设。
现有痛点: 同家族 VLM（如 Qwen 系列、InternVL 系列）共享训练数据、架构和预训练方法论，导致相关误差——标准投票假设独立性但实际被违反。存在 1.5-6.5% 的"误导层"问题：相关误差导致集成 0% 准确率，尽管最佳单模型正确。
核心矛盾: 增加模型数量应提升集成表现（Condorcet 定理），但实际中 17 个模型的有效独立投票数仅 2.5-3.6——模型数量增加带来的收益被家族内相关性稀释殆尽。bias-variance-covariance 分解显示协方差项主导了集成误差。
切入角度: 通过特征值分析量化家族相关结构，发现架构家族是相关性的主要来源（而非模型大小或训练数据量），由此设计家族感知的聚合策略。
核心 idea: 分层聚合——先在家族内聚合消除冗余，再跨家族投票恢复有效独立性。加上学习式候选打分（LCS）用支持广度、家族多样性、模型质量重新排序答案。

HFV (分层家族投票):
- 做什么：消除家族内冗余投票，恢复有效独立性
- 核心思路：家族内多数投票得到家族代表答案 → 跨家族多数投票生成最终答案。可选 HFV-sharp 变体通过交叉验证学习家族内聚合的温度参数 α
- 设计动机：将 N 个家族内冗余模型压缩为 1 个家族代表，使跨家族投票满足独立性假设；在 Misleading 层恢复 +18-26pp 验证了冗余消除的效果
QualRCCV (质量加权冗余校正校准投票):
- 做什么：无训练地将家族结构和模型质量纳入单层投票
- 核心思路：按权重 \(w_m \cdot q_f^\gamma / |F(m)|^\rho\) 加权每个模型，其中 \(q_f\) 是家族内最佳成员准确率，\(|F(m)|\) 是家族大小——大家族的每个成员被降权，高质量家族被升权
- 设计动机：HFV 的二阶段硬聚合可能丢失信息；QualRCCV 是软加权方案，首个在三个基准上全面优于校准投票的无训练方法 (p<0.05)
LCS (学习候选打分):
- 做什么：训练分类器按多维特征重新排序候选答案
- 核心思路：对每个候选答案提取特征（支持该答案的模型数/家族数/平均模型质量），训练交叉验证的逻辑回归分类器排序
- 设计动机：投票只看"谁最多"，LCS 加入"谁在支持"的质量信号——家族多样性高的答案更可靠

基准	模型数	有效独立投票者	降维比例
VQAv2	17	3.6	78.8%
TextVQA	17	2.5	85.3%
GQA	17	3.1	81.8%

方法	VQAv2	TextVQA	GQA	需要训练
校准投票	86.70%	82.11%	64.02%	否
HFV-sharp	87.19%	82.07%	64.27%	否
QualRCCV	86.87%	82.32%	64.33%	否
LCS	87.83%	82.72%	66.47%	是

方法	VQAv2 Misleading	TextVQA Misleading
标准投票	0%	0%
HFV	+18pp	+26pp