Active Measurement: Efficient Estimation at Scale¶

会议: NeurIPS 2025
arXiv: 2507.01372
代码: 无
领域: 统计估计 / AI辅助科学测量
关键词: active measurement, importance sampling, scientific estimation, human-AI collaboration, confidence intervals

一句话总结¶

提出Active Measurement框架，结合AI检测器的自适应重要性采样和迭代人工标注，实现大规模科学测量（如鸟类计数、疟疾检测）的无偏估计，将原始检测器3.78的误差率降至0.06，同时提供理论保证的置信区间。

背景与动机¶

许多科学测量任务需要在大规模数据中进行精确计数/检测（如统计濒危鸟类数量、计数疟疾感染细胞、评估建筑损坏）。全自动检测器存在偏差，纯人工标注太贵。需要一种结合AI和人工的方法——用AI指导人工审查哪些区域，在有限人工预算下最大化估计精度。

核心问题¶

如何在有限的人工标注预算下，利用不完美的AI检测器实现大规模科学计数任务的无偏和高精度估计？

方法详解¶

整体框架¶

迭代式人机协作：AI检测器生成提议分布 → 基于检测置信度进行重要性采样 → 人工审查采样区域 → 用审查结果微调检测器 → 重复。

关键设计¶

无偏估计器：基于检测器的重要性采样，数学保证无偏性
无放回采样(WOR)：比标准重要性采样方差更低，特别是标注比例>10%时
自适应微调(AIS)：每轮人工标注后微调检测器，改善提议分布
加权方案：多步估计的组合权重，最小化总体方差，理论证明方差比≤98
置信区间：基于Martingale CLT的流式计算CI，覆盖率~95%

实验关键数据¶

任务	原始检测器误差	Active Measurement	标注比例
雷达鸟类计数	3.78	0.06	t=200步
天空图像	较高	~0	~20% tiles
疟疾细胞	有偏	无偏	<10%
建筑损坏	有偏	无偏	<10%

置信区间覆盖率~95%，验证了不确定性估计的可靠性
检测器：Faster R-CNN + ResNet-50

消融实验要点¶

WOR在10%+标注时贡献显著
检测器微调(AIS)持续改善，即使原始检测器已饱和
固定checkpoint vs 端到端训练性能相当

亮点¶

统计严谨性：不仅给出估计值，还给出数学保证的置信区间
跨领域通用：生态学、医学影像、卫星图像三个截然不同的领域
人机协作范式：AI不替代人，而是指导人去看最有信息量的区域
实用性强：直接解决生态保护和公共卫生中的实际测量问题

局限性 / 可改进方向¶

对某些高风险应用，估计精度可能仍不够
框架探索测量准确性，不涉及新测量类型
潜在滥用风险：可能被用于定位脆弱群体

与相关工作的对比¶

vs DISCount：Active Measurement是DISCount的扩展，加入了自适应微调和WOR
vs 纯MC采样：重要性采样显著降低方差
vs 纯AI检测：Active Measurement提供无偏估计而非有偏预测

评分¶

新颖性: ⭐⭐⭐⭐ 将主动学习思想应用于科学测量估计是有价值的交叉
实验充分度: ⭐⭐⭐⭐ 多领域验证，统计分析严谨
写作质量: ⭐⭐⭐⭐ 理论和实践结合好
价值: ⭐⭐⭐⭐ 对生态监测和医学影像分析有直接应用价值