Quantifying Task-Relevant Representational Similarity Using Decision Variable Correlation¶
会议: NeurIPS 2025
arXiv: 2506.02164
代码: github.com/wei-bbc-lab/DVC
领域: 计算神经科学 / 表征相似性分析
关键词: 决策变量相关, 脑-模型对齐, 表征相似性, 信号检测理论, 视觉皮层
一句话总结¶
本文提出基于决策变量相关(DVC)的新方法来衡量两个神经表征在分类任务上的逐试次一致性,发现深度网络在 ImageNet 上准确率越高反而与猴脑 V4/IT 的 DVC 越低,对抗训练和大规模数据集预训练也无法缩小这一差距。
研究背景与动机¶
如何比较深度网络与大脑的表征是计算神经科学的核心问题。现有方法可分为两类:
表征相似性方法(RSA、CKA、CCA):衡量表征的几何结构相似性,但对任务无关的维度也敏感。
行为一致性方法(Cohen's Kappa、error consistency):关注逐图像的决策一致性,但容易受准确率差异和解码器偏差的混淆。
一个引人注目的矛盾是:一些研究认为深度网络与大脑表征高度相似,另一些则认为相似性有限且已趋于饱和。这部分源于评估方法本身的局限性。
本文的动机是提出一种原则性的、关注任务相关特征的、对准确率和决策偏差不敏感的相似性度量,统一表征层和行为层分析的优势。
方法详解¶
整体框架¶
DVC 方法建立在信号检测理论(SDT)的推广之上:
- 对于二元分类任务,每个观察者(大脑区域或网络层)使用一个连续的决策变量(DV)来做选择。
- 对于两个观察者,可以计算它们在同一组图像上的决策变量之间的相关性——即 DVC。
- DVC 捕获的是两个观察者在该分类任务上的编码和解码策略的相似性。
关键创新在于:不从行为选择数据推断 DVC,而是直接从高维神经表征中推断 DVC。
关键设计¶
从神经表征解码决策变量
对于每对类别(如猫 vs 狗): 1. 使用线性判别分析(LDA)找到最大化类别分离的轴 2. 将高维表征投影到该轴上,得到每张图像的决策变量值 3. 为解决高维不稳定性问题,先用 PCA 将表征降至相同维度(25维),再使用 LDA
噪声校正的分半程序
测量噪声会低估 DVC。为此设计了分半校正: - 将每个观察者的表征分为两半:\(\text{DV}_{A1}, \text{DV}_{A2}\) 和 \(\text{DV}_{B1}, \text{DV}_{B2}\) - 噪声校正的 Pearson 相关为:
其中 \(r_{\text{cross}}\) 是跨观察者相关的几何均值,\(r_{\text{self}}\) 是观察者内分半可靠性的几何均值。这消除了独立加性对称噪声引入的衰减偏差。
多类别扩展
给定 \(N > 2\) 个类别,对每对类别分别计算 DVC,最终报告所有类对 DVC 值的平均。
损失函数 / 训练策略¶
本文不涉及模型训练,是一种分析方法。核心评估采用 Pearson 相关系数作为 DVC 的度量。
实验关键数据¶
主实验¶
使用公开的猴脑 V4/IT 数据集(2只猴子,各100个神经元,8类物体各400张图,共3200张图像)评估了43个 ImageNet-1k 预训练模型。
| 比较对象 | 平均 DVC | 说明 |
|---|---|---|
| 猴子-猴子(V4+IT) | 0.57 | 跨猴脑一致性高 |
| 猴子-猴子(仅V4) | 0.63 | V4 区域一致性最高 |
| 猴子-猴子(仅IT) | 0.41 | IT 区域一致性略低 |
| 模型-猴子(43个模型平均) | 0.29 ± 0.05 | 显著低于猴子间 |
| 对抗训练模型-猴子(9个模型) | 0.27 ± 0.02 | 略有下降 |
| 大数据集模型-猴子(13个模型) | 0.24 ± 0.05 | 进一步下降 |
模型准确率 vs DVC 与猴脑的关系:
| Pearson 相关 | p 值 | 结论 |
|---|---|---|
| -0.70 | 2.28e-07 | ImageNet 准确率越高,与 V4/IT 的 DVC 越低 |
消融实验¶
模型-模型 DVC 分析
| 比较类型 | DVC | p 值 |
|---|---|---|
| 同族模型对 | 显著更高 | 1.33e-56 |
| 不同族模型对 | 较低 | — |
| 对抗训练模型之间 | 0.69 ± 0.09 | 高度一致 |
| 对抗训练 vs 标准模型 | 显著降低 | 5.20e-37 |
与 Cohen's Kappa 的对比分析
| 度量 | 模型-猴脑 | 模型-模型 | 猴子-猴子 |
|---|---|---|---|
| DVC(本文方法) | 0.29 ± 0.05 | 适中,不极端高 | 0.57 |
| Cohen's Kappa(交叉验证LR) | 0.13 ± 0.04 | 0.23 ± 0.07 | 0.22 |
| Cohen's Kappa(原始解码器) | 极低 | 极高 | — |
Cohen's Kappa 的高模型间一致性源于解码器引入的决策偏差。当替换为交叉验证逻辑回归后,Cohen's Kappa 结果与 DVC 基本一致。
关键发现¶
- 负相关现象:ImageNet 准确率越高的网络,与猴脑 V4/IT 在任务相关维度上的一致性越低(\(r = -0.70\))。这与 BrainScore 等早期报告的正相关趋势相矛盾。
- 对抗训练悖论:对抗训练使模型之间高度一致(DVC = 0.69),但与大脑的一致性并未提升,甚至略有下降。
- 大数据集无帮助:ImageNet-21k、JFT-300M 等大规模预训练模型的 DVC 更低(0.24),而非更高。
- Cohen's Kappa 的陷阱:该度量对准确率差异和决策偏差高度敏感,可能误导研究者认为模型间高度一致而模型-大脑间极低。
亮点与洞察¶
- DVC 是一种原则性的度量,在信号检测理论框架下自然地解耦了准确率和逐试次一致性,这是现有方法(RSA、Cohen's Kappa)难以做到的。
- 分半噪声校正方法简洁有效,无需对噪声结构做过强假设。
- 实验结果挑战了"更好的网络 = 更像大脑"的流行假说,揭示了深度网络和灵长类视觉表征之间可能存在的根本性策略差异。
- 对 Cohen's Kappa 文献的系统性再分析是方法论贡献的重要组成部分。
局限与展望¶
- 仅使用两只猴子的数据,样本量有限,后续需要更大规模的神经记录数据验证。
- 高维特征空间的降维可能丢失信息,尽管作者做了多种维度设置的鲁棒性验证。
- 猴子与人类的视觉行为可能不同,结论向人类推广需谨慎。
- 噪声校正假设加性对称噪声,对更一般噪声条件的 DVC 恢复仍是开放问题。
- 实验仅涉及物体分类任务,未涵盖更复杂的视觉任务。
相关工作与启发¶
- BrainScore(Schrimpf et al.):报告准确率与脑对齐正相关但趋于饱和,DVC 揭示了不同的趋势。
- Error Consistency(Geirhos et al.):基于 Cohen's Kappa 的行为一致性分析,本文指出其受解码器偏差影响。
- Platonic Representation Hypothesis(Huh et al.):认为深度学习系统趋向学习共同表征,但本文的 DVC 结果更为微妙。
- 未来方向:结合行为层和表征层的 DVC 分析;使用生态学相关数据集训练;在训练中引入内部噪声模型。
评分¶
- 创新性: ★★★★☆(将 SDT 推广到高维表征比较,理论动机清晰)
- 实验设计: ★★★★★(多层面分析、与 Cohen's Kappa 的系统对比、鲁棒性验证充分)
- 实用性: ★★★★☆(开源代码,可直接应用于脑-模型对齐研究)
- 发现的冲击力: ★★★★★(负相关、对抗训练悖论等发现颠覆常识)
相关论文¶
- [NeurIPS 2025] Enhancing Training Data Attribution with Representational Optimization
- [ICML 2025] DipLLM: Fine-Tuning LLM for Strategic Decision-Making in Diplomacy
- [ICML 2025] When Can In-Context Learning Generalize Out of Task Distribution?
- [CVPR 2025] 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
- [ACL 2025] Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning