AcuRank: 不确定性感知的自适应计算重排序¶

现有问题: LLM基础的列表式重排序通常在固定大小的子集上进行，忽略了查询难度和文档分布的差异
精度-效率权衡: 固定计算量无法根据输入特性动态调整，导致在某些查询上过度计算，在其他查询上计算不足
贝叶斯最优基准: 通过与贝叶斯最优估计器对比，评估适应性重排序的必要性和有效性
上下文长度限制: 由于LLM上下文限制，重排序通常基于部分结果聚合，导致信息丧失
置信度度量缺失: 现有方法缺乏对排序置信度的量化，无法判断何时应停止验证
实际应用需求: TREC-DL和BEIR等基准表明，多样化查询需要自适应策略

会议: NeurIPS 2025
arXiv: 2505.18512
代码: 无
领域: LLM效率、信息检索
关键词: 不确定性估计、自适应计算、贝叶斯模型、重排序、上下文长度优化

一句话总结¶

通过基于TrueSkill模型的不确定性估计，动态调整重排序子集大小和验证范围，在实现更优精度效率权衡的同时避免过度计算。

AcuRank采用迭代精化策略：(1)初始化TrueSkill模型; (2)通过部分子集验证更新关联度估计; (3)计算排序置信度; (4)根据信心阈值决定是否继续验证; (5)聚合最终排名。

贝叶斯TrueSkill模型 - 做什么: 将文档重排序建模为配对比较问题，维护每个文档的隐含技能参数 - 核心思路: 利用贝叶斯框架统计建模排序不确定性，支持增量更新 - 设计动机: 相比点估计，贝叶斯方法能捕捉排序的真实置信度分布

不确定性量化 - 做什么: 计算排序置信度，衡量当前排名的稳定性 - 核心思路: 基于TrueSkill后验分布的方差，估计top-k排名翻转的概率 - 设计动机: 置信度高的排名无需进一步验证，节省计算成本

自适应验证停止 - 做什么: 根据置信度阈值动态决定重排序子集大小和验证轮次 - 核心思路: 当所有top-k文档置信度超过阈值时停止，避免不必要的计算 - 设计动机: 不同查询的最优验证范围差异大，静态策略次优

数据集	方法	nDCG@10	计算节省	精度提升
TREC-DL	固定计算	0.652	基准	-
TREC-DL	AcuRank	0.671	23%	+2.9%
BEIR (平均)	固定计算	0.512	基准	-
BEIR (平均)	AcuRank	0.528	18%	+3.1%
TREC-DL (困难查询)	AcuRank	0.644	32%	+4.2%

查询类型	最优子集大小	置信度阈值	平均验证轮次	性能 (nDCG@10)
简单查询	20	0.85	1.5	0.692
中等查询	50	0.75	2.3	0.658
复杂查询	100	0.65	3.8	0.621
全局平均	-	-	2.4	0.671