TestNUC: Enhancing Test-Time Computing Approaches and Scaling through Neighboring Unlabeled Data Consistency¶

会议: ACL 2025
arXiv: 2502.19163
代码: 有 (https://github.com/HenryPengZou/TestNUC)
领域: NLP / LLM推理
关键词: 测试时计算, 邻域一致性, 无标注数据, 多数投票, LLM推理增强

一句话总结¶

TestNUC 提出了一种线性扩展的测试时推理增强方法，通过检索测试样本的近邻无标注数据，让 LLM 同时预测测试样本及其邻居，再通过加权多数投票聚合，稳定提升分类准确率。

测试时计算（test-time computing）通过在推理阶段投入更多计算资源来提升 LLM 性能，已成为热门方向。现有策略分两类：

输入级（如 few-shot ICL）：增加 prompt 中的 token → 计算成本随 token 数平方增长

输出级（如 self-consistency、best-of-N）：采样多个答案并聚合 → 忽略了现实场景中大量可用的无标注数据

核心问题：如何高效利用无标注数据来增强测试时推理？

作者注意到一个"嵌入空间中的局部一致性"现象：语义相似的实例很可能共享相同标签。初步分析表明，在 K=20 的最邻近中，即使最差的情况（GoEmotion 150 类）纯度也达到 ~30%，大多数数据集远高于此。如果用多数投票聚合邻域的真实标签，可以得到非常准确且稳定的预测。

TestNUC 包含两个步骤： 1. Neighbor Retrieval：基于嵌入相似度检索测试样本的 top-K 近邻无标注数据 2. Collaborative Prediction：LLM 分别对测试样本和 K 个近邻生成预测，通过设计的聚合策略得出最终答案

邻域纯度分析（Preliminary Analysis）
- 定义邻域纯度 \(\phi(\mathcal{N}) = \frac{1}{KN} \sum_{i=1}^N \sum_{j \in \mathcal{N}} \mathbf{1}(y_i = y_j)\)
- 实证发现：近邻samples 具有高标签一致性，多数投票准确率随 K 增加保持稳定
- 加权投票进一步提高了大 K 下的稳定性
三种聚合策略
- 朴素多数投票：直接取 K 个预测中最频繁的类别
- 加权多数投票：以余弦相似度为权重进行投票，降低远距离邻居的噪声影响
- 过滤加权多数投票（完整版）：额外利用 LLM 的言语化置信度过滤低质量预测
  - 对每个邻居，LLM 同时输出预测和置信度
  - 仅保留置信度 ≥ 阈值 θ 的预测参与投票
与现有方法的无缝集成
- 与 Self-Consistency 集成：在每个邻居上也做 self-consistency，再聚合
- 与 TopK-ICL 集成：先用 ICL 增强每个邻居的预测，再聚合
- 与 Best-of-N 集成：在 TestNUC 的聚合结果上再做 best-of-N
- 所有集成均带来额外性能提升
计算复杂度分析
- 嵌入预计算成本为 O(N)（离线完成），检索成本为 O(N)
- LLM 推理成本为 O(K)，与 self-consistency（O(M)）相当
- 总体线性扩展，远优于 ICL 的二次扩展