跳转至

On the Hardness of Conditional Independence Testing In Practice

会议: NeurIPS 2025
arXiv: 2512.14000
作者: Zheng He (UBC), Roman Pogodin (McGill/Mila), Yazhe Li (Microsoft AI), Namrata Deka (CMU), Arthur Gretton (UCL Gatsby), Danica J. Sutherland (UBC/Amii)
代码: 未公开
领域: ai_safety
关键词: 条件独立性检验, 核方法, KCI, GCM, Type-I错误, 条件均值嵌入, 因果发现

一句话总结

系统分析了基于核的条件独立性(CI)检验在实践中失败的根本原因:条件均值嵌入的估计误差是导致Type-I错误膨胀的核心因素,同时揭示了选择条件核\(k_C\)对检验功效至关重要但会加剧假阳性的内在张力。

研究背景与动机

问题背景

条件独立性(CI)检验是机器学习和统计学中的基础任务,广泛用于因果发现(如PC算法)、预测器公平性评估(equalized odds)、分布外鲁棒性检查等场景。当条件变量\(C\)为离散时,问题可归约为无条件独立性检验;但当\(C\)为连续变量时,由于每个\(C\)值只观察到一对\((A,B)\),必须对条件分布的光滑性做假设。

已有工作的不足

  • Shah & Peters (2020) 证明了一个不可能性定理:对所有Lebesgue连续的零分布都有有限样本有效水平的CI检验,其功效不可能超过显著性水平\(\alpha\)。但该定理基于"隐藏依赖性"的对抗构造(如提取\(C\)的第30位小数),并不能解释CI检验在实践中的普遍失败
  • 核条件独立性检验(KCI)有Type-I错误难以控制的声誉,但根本原因未被充分理解
  • 现有工作(如SplitKCI)尝试缓解Type-I错误但远未解决问题
  • 先前工作隐式假设用于回归的核同时适合度量依赖性,忽视了\(k_C\)核选择的重要性

核心动机

不再停留于不可能性定理的理论层面,而是深入分析KCI和GCM类检验在实践中失败的具体机制:(1) 条件均值嵌入估计误差如何导致Type-I错误膨胀;(2) 条件核\(k_C\)的选择如何在检验功效和假阳性控制之间制造不可调和的张力。

方法详解

KCI与GCM的统一框架

本文首先通过新的定理(Theorem 2.2)重新表述条件独立性:\(A \perp\!\!\!\perp B \mid C\)当且仅当对所有\(L^2\)函数\(f, g, w\), $\(\mathbb{E}_C\left[w(C) \cdot \mathbb{E}_{AB|C}\left[(f(A) - \mathbb{E}[f(A)|C])(g(B) - \mathbb{E}[g(B)|C]) \mid C\right]\right] = 0\)$

基于此框架,KCI统计量定义为KCI算子的Hilbert-Schmidt范数平方: $\(\text{KCI} = \|\mathfrak{C}_{\text{KCI}}\|_{\text{HS}}^2 = \mathbb{E}_{C,C'}\left[k_C(C,C') \langle \mathfrak{C}_{AB|C}(C), \mathfrak{C}_{AB|C}(C') \rangle_{\text{HS}}\right]\)$

关键发现:GCM几乎是KCI的特例。 当对\(A\)\(B\)使用标量线性核\(\phi_A(a)=a\)\(\phi_B(b)=b\),且\(k_C(c,c')=w(c)w(c')\)时,KCI退化为(加权)GCM的population版本。标准GCM对应\(w(c)=1\)(即\(\ell_C=\infty\))。此联系类似于分类器双样本检验与MMD检验的关系。

理论困难的核心:条件均值嵌入估计

Proposition 4.1证明:若已知真实条件均值嵌入\(\mu_{A|C}\)\(\mu_{B|C}\),则可以构造有限样本有效且一致的检验,从而绕过Shah & Peters的不可能性定理。具体地,基于Hoeffding不等式,当\(\text{KCI}_n > 32\kappa_A\kappa_B\kappa_C\sqrt{\frac{1}{n-1}\log\frac{1}{\alpha}}\)时拒绝零假设,即可获得level至多\(\alpha\)的有效检验。

这表明CI检验的理论困难完全源于条件均值嵌入的估计问题,而非检验统计量本身。

条件核\(k_C\)选择的关键性

通过合成实验(问题7)分析:当条件协方差\(\gamma(C)=\sin(\beta C)\)时,GCM(\(\ell_C=\infty\))由于对\(\gamma\)做全局平均而完全无法检测依赖性(因为\(\mathbb{E}_C[\gamma(C)]=0\))。解析推导KCI值为: $\(\text{KCI} = \frac{1}{2}\tau^4 e^{-\beta^2}\sqrt{\frac{\ell_C^2}{\ell_C^2+2}}\left(e^{2\beta^2/(\ell_C^2+2)} - 1\right)\)$ 存在最优\(\ell_C^*\)平衡两个效应:太小的\(\ell_C\)使核权重项消失,太大的\(\ell_C\)使协方差定位能力消失。

本文借鉴无条件检验中的核选择策略,提出最大化信噪比\(\widehat{\text{SNR}} = \widehat{\text{KCI}} / \hat{\sigma}_{\mathfrak{H}_1}\)来选择\(k_C\),并证明其一致性(Theorem 5.2)。

回归误差对Type-I错误的影响

设估计误差\(\Delta_{A|C} = \hat{\mu}_{A|C} - \mu_{A|C}\),在零假设下: $\(\mathbb{E}[\widehat{\text{KCI}}_n] = \mathbb{E}\left[k_C(C,C')\langle\Delta_{A|C}(C), \Delta_{A|C}(C')\rangle \langle\Delta_{B|C}(C), \Delta_{B|C}(C')\rangle\right]\)$ 该值一般非零,导致正偏差。更严重的是,\(\nu_1 > 0\)使方差衰减从\(\Theta(1/n)\)退化为\(\Theta(1/\sqrt{n})\)

Theorem 6.2给出了回归误差导致Type-I错误膨胀的形式化上界:检验统计量超过名义阈值\(q/n\)的概率可由\(n\widehat{\text{KCI}}\)\(n^2\text{Var}(\widehat{\text{KCI}}_n)\)的量界定。要保持正确的渐近校准,需要回归误差满足\(\widehat{\text{KCI}} = o(1/n)\)\(\nu_1 = o(1/n)\)

Theorem 6.3进一步分析wild bootstrap近似的误差,证明bootstrap统计量\(Y\)与正态近似\(nZ_n\)之间的Kolmogorov距离受标准化均值偏移\(b_{\widehat{\text{KCI}}}\)和方差失配\(\kappa_{\text{var}}\)控制。

实验关键数据

实验1:合成数据中\(k_C\)选择对Type-I/II错误的影响

使用问题(7)的合成数据(\(f_A=\cos, f_B=\exp, \tau=0.1\)),分析核长度尺度\(\ell_C^2\)对检验行为的影响。

训练样本量\(m\) \(\ell_C^2\)范围 Type-I错误 Type-II错误 观察
200 较小\(\ell_C^2\) 显著膨胀(>0.05) 较高 回归质量差时假阳性失控
200 适中\(\ell_C^2\) 约0.05 最低 理论最优区间
1000 所有\(\ell_C^2\) ≤0.05(稳定) \(\ell_C^2\)变化 回归质量好时Type-I得到控制

理论SNR曲线与经验功效曲线高度吻合,验证了基于SNR选择\(\ell_C^2\)的有效性。但功效最大化倾向于选中Type-I错误膨胀区域,暴露了功效-有效性的内在矛盾。

实验2:多维条件变量的两种场景对比

场景 描述 Type-I错误 Type-II错误
场景1:共享坐标 回归与依赖性使用\(C\)的相同坐标 0.21 0.0
场景2:独立坐标 回归与依赖性使用\(C\)的不同坐标 0.10 0.08

场景1中回归误差通过共享维度泄漏了相关噪声到检验统计量,导致Type-I错误(0.21)远超nominal level(0.05)。场景2的独立维度减少了泄漏但牺牲了部分功效(Type-II从0升至0.08)。

亮点

  • 统一视角:首次严格证明GCM(包括加权GCM)几乎是KCI的特例(线性核+特定\(k_C\)),建立了两大类CI检验方法的深层联系
  • 精确诊断:通过Proposition 4.1证明CI检验困难完全源于条件均值嵌入估计,而非检验统计量设计本身,这比Shah & Peters的不可能性定理提供了更具操作性的洞察
  • 解析与实证结合:在合成问题上推导出KCI的闭式解,精确展示\(\ell_C\)如何控制检验行为,理论预测与实验高度一致
  • 揭示根本张力:选择好的\(k_C\)对功效至关重要,但功效最大化会系统性地选中回归误差导致Type-I膨胀的区域——这是CI检验的结构性困境

局限与展望

  • 未提出解决方案:主要是诊断性工作,揭示了问题但未给出有效缓解Type-I错误膨胀的实用方法
  • 核选择的两难:提出的SNR最大化核选择策略虽然提升功效,但可能加剧假阳性,实践中如何平衡仍未解决
  • 线性核分析为主:Type-I错误的理论分析主要针对线性\(k_A\)\(k_B\),对更复杂的非线性核设定覆盖不足
  • 合成实验为主:虽提及真实数据实验(附录H.3),但主要分析基于合成数据
  • 固定回归器假设:理论分析假设回归参数固定,未充分考虑训练-测试分割带来的回归器随机性

与相关工作的对比

  • Shah & Peters (2020):证明CI检验不可能性定理,本文将此不可能性精确定位于条件均值嵌入估计,并分析其在KCI中的具体影响
  • Zhang et al. (2012):提出KCI检验,本文对其框架进行重新表述,并指出其隐式假设\(k_C\)不需要专门选择的问题
  • Scheidl et al. (2023, SplitKCI):通过样本分割缓解Type-I错误,本文证明分割不足以解决问题,因为回归误差仍可通过\(k_C\)选择被放大
  • Lundborg et al. (2022, Weighted GCM):通过权重函数扩展GCM,本文证明其本质等价于受限的\(k_C\)选择
  • Gretton et al. (2012), Sutherland et al. (2017):无条件检验中的核选择策略,本文将类似方法推广到CI检验但指出无法继承其Type-I控制保证(因缺少置换检验)

评分

  • 新颖性: ⭐⭐⭐⭐ — 统一KCI与GCM的视角新颖,条件均值嵌入作为核心困难的精确定位有深刻洞察
  • 实验充分度: ⭐⭐⭐ — 合成实验设计精巧且理论-实验吻合度高,但真实数据验证不足
  • 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,理论表述严谨,从动机到分析层层递进
  • 价值: ⭐⭐⭐⭐ — 对CI检验领域的核心困难提供了迄今最清晰的诊断,对因果发现和公平性检验的实践者有重要参考价值

相关论文