Beyond Binary Success: Sample-Efficient and Statistically Rigorous Robot Policy Comparison¶

日期: 2026-03-13
arXiv: 2603.13616
代码: 未公开
领域: 机器人 / 评估方法论
关键词: policy comparison, sequential testing, SAVI, sample efficiency, progress metrics

一句话总结¶

提出 N-SCORE，基于安全随时有效推断（SAVI）的机器人策略对比框架，支持从二值成功率到连续奖励的通用指标，通过序贯检验在统计严格性不降的前提下比批处理方法减少最多 70% 评估负担（仿真）和 50%（硬件），在 4500+ 硬件 rollout 上验证。

研究背景与动机¶

评估资源瓶颈: 通才机器人策略越来越强，但硬件评估限于 10-60 次 rollout，统计有效性常被忽视
二值成功率的信息损失: 完成 90% 任务和完全不动都是"失败"，二值指标丢失关键信息
三难困境: 现有方法在统计严格性、样本效率、指标通用性三者间只能满足部分——batch 方法不够高效，序贯方法仅限二值，非参数方法不够 sample-efficient
核心需求: 一个同时满足统计严格（Type-1 Error ≤ \(\alpha^*\)）、样本高效（序贯可随时停）、指标通用（二值/离散/连续）的框架

方法详解¶

整体框架¶

将策略对比建模为证据积累的动态系统 → 基于 SAVI 框架构建 martingale 检验 → 当证据超过 \(1/\alpha^*\) 阈值时停止并判定 → 序贯执行无需预设样本量

关键设计¶

证据积累器: \(X_{n+1} = (1 + \xi_n \cdot (r_{1,n} - r_{0,n})) X_n\)，正面证据使过程不稳定增长，负面证据使其收缩
在线 \(\xi_n\) 优化: 利用核密度估计（KDE）构建非参数表示 \(\mathcal{D}_R^{[i]}\)，自适应调整证据积累速率，低维设定快速适应数据结构
Type-1 Error 严格控制: 基于 Ville's Inequality，保证 \(\mathbb{P}[\text{wrongly reject } \mathcal{H}_0] \leq \alpha^*\)，不依赖渐近近似，有限样本下严格成立
通用进展指标: 支持任意有界进展指标 \(M \in [0,1]\)（Definition 1），包括二值成功率、离散部分学分（subtask completion）、连续奖励/轨迹平滑度
N-SCORE_k 家族: 参数 \(k\) 类似 KDE 带宽，控制非参数表示的精细度，适应不同数据分布结构
判定规则: 当 \(\bar{X} = \max_{n} X_n \geq 1/\alpha^*\) 时停止并拒绝零假设，否则继续收集数据

实验关键数据¶

方法	伯努利 TTD	伯努利 Power	非参数 TTD	非参数 Power
STEP (二值 SOTA)	95.1	0.953	—	—
θ-SAVI	117.6	0.962	—	—
WSR	224.8	0.592	247.3	0.840
N-SCORE₂	117.9	0.965	—	—
N-SCORE∞	122.3	0.958	206.8	0.889

数据集	进展指标节省	二值指标节省
LBM 1.0 仿真 (2000 rollout)	~70% (598 vs 2000)	~25-35%
LBM 1.0 硬件 (500 rollout)	~45% (286 vs 500)	~16-25%
RoboArena (641 trial)	比 WSR 节省 450+ trials	—

关键发现¶

细粒度进展指标比二值成功率能更快区分策略差异——仿真中最高 70% 节省（598 vs 2000 rollout）
在 RoboArena 上 N-SCORE 区分了所有 4 个策略，WSR 在 641 trials 内未能区分 \(\pi_0\) 和 PG-Diff
N-SCORE 总共节省 450+ trials（1419 vs WSR 的 1881）
非参数场景下比 WSR 平均快 ~15%（TTD 206.8 vs 247.3），同时统计 power 高 ~5 个百分点（0.889 vs 0.840）
伯努利场景下 STEP 是最优的（如理论预期），但 N-SCORE₂ 表现接近（117.9 vs 95.1），同时具备更强通用性
硬件仿真实验中，部分学分指标（6-8 级）比二值指标额外节省 24-30% 评估负担

亮点与洞察¶

超越二值成功率的呼吁非常及时——机器人社区长期依赖粗糙指标，更丰富的指标不仅信息量大，而且节省评估资源
序贯检验的"随时可停"特性完美匹配硬件评估的资源约束
证据积累器的动态系统视角很优雅：\(X_n\) 在 \(\mathcal{H}_0\) 下稳定、在 \(\mathcal{H}_1\) 下不稳定——将统计检验转化为稳定性分析
KDE 用于优化 \(\xi_n\) 是关键创新——在低维比较问题中快速适应数据分布，比通用 WSR 方法更高效

局限性 / 可改进方向¶

KDE 在高维指标空间可能效率下降，维数诅咒不可避免
当前框架限于单一标量指标的对比，多维性能综合评估未涉及
需要两个策略的交替评估，不适用于已有历史数据的离线对比
实际部署中，评估环境配置的随机性可能影响 \(r_{0,n}\) 和 \(r_{1,n}\) 的独立性假设

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 SAVI 系统化应用于通用机器人策略比较，KDE 优化是关键创新
实验充分度: ⭐⭐⭐⭐⭐ 4500+ 硬件 + 2000 仿真 rollout，多数据集多指标全面验证
价值: ⭐⭐⭐⭐⭐ 对机器人评估方法论有范式性影响
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，实验设计精细

补充说明¶

本工作的核心贡献在方法论层面——提供了"如何正确比较两个策略"的理论和工具
N-SCORE 的代码和评估框架的开源将对机器人社区有重要影响
证据积累器的「乘法结构」\(X_{n+1} = (1+\xi(r_1-r_0)) X_n\) 来自 SAVI 文献的最优增长率理论
实际场景中最有价值的应用：训练pipeline中A/B测试新策略，用最少硬件rollout做出可靠判断
Neyman-Pearson 框架下，Type-1 Error 作为硬约束，同时最小化 \(\mathbb{E}[N] + \lambda \cdot \beta\)（速度+Type-2 Error）
在自动驾驶、手术机器人等高安全性场景中，统计严格的策略对比尤为重要
框架的 Bonferroni 校正支持多策略同时比较（如 RoboArena 中 4 个策略的全局 \(\alpha=0.05\)）