Failure Prediction at Runtime for Generative Robot Policies¶

会议: NeurIPS 2025
arXiv: 2510.09459
代码: GitHub
项目主页: FIPER Website 作者: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig（TUM 学习系统与机器人实验室）领域: Robotics / Imitation Learning / Safety
关键词: 失败预测, 生成式策略, RND, Action Chunk Entropy, 共形预测

一句话总结¶

提出 FIPER 框架，在生成式机器人策略（扩散/流匹配）运行时，通过观测端 RND-OE（OOD 检测）和动作端 ACE（动作块熵）双指标联合判断，无需任何失败数据即可实现早期、准确的失败预测，并借助共形预测提供统计保证。

研究背景与动机¶

领域现状：生成式模仿学习（diffusion policy、flow matching）近年来取得显著进展，使机器人能够执行复杂的长时域操作任务。这类方法通过学习多模态条件动作分布，展现出强大的任务泛化能力。

现有痛点： - 部署时的分布偏移（未见环境、光照变化、物体位置变化）或累积动作误差会导致不可预测的危险行为 - 现有 OOD 检测方法仅基于观测端，对良性 OOD 状态（策略实际可以泛化到的新状态）产生大量误报 - VLM-based 方法只能回顾性地检测已经发生的失败，无法做到早期预警 - 许多方法依赖失败数据收集，在真实环境中既不安全也不现实 - 已有不确定性度量无法正确处理生成式策略的多模态动作分布

核心矛盾：安全部署要求运行时精准预测失败，但单一信号源（观测或动作）都无法可靠区分"真正的失败前兆"和"策略可以处理的新情况"。

本文目标：在不需要失败数据的前提下，为生成式机器人策略提供运行时的早期失败预测机制，同时尽量避免对良性 OOD 情况的误报。

切入角度：从"失败通常同时伴随不熟悉的观测和混乱的动作"这一观察出发，设计观测端+动作端的双指标联合检测框架，只有两个信号同时异常才触发警报。

核心 idea：观测空间 OOD 检测与动作空间不确定性量化双管齐下，互补降噪，辅以共形预测校准阈值，实现无需失败数据的运行时失败预测。

方法详解¶

整体框架¶

FIPER（Fiailure Prediction at Runtime）是一个模块化的运行时失败预测框架，核心设计基于一个关键洞察：失败往往同时伴随不熟悉的观测和模糊/混乱的动作。框架包含三个核心组件：

观测端指标 RND-OE：在策略自身的观测嵌入空间中执行 Random Network Distillation，检测当前观测是否偏离训练分布
动作端指标 ACE：提出 Action Chunk Entropy，从条件动作分布中采样多批动作块，在末端执行器空间中计算熵分数，量化动作不确定性
时间窗口聚合 + 双阈值触发：两个分数分别在短时间窗口上聚合平滑后，经共形预测校准的阈值判断，仅当两者同时超标时才发出失败警报

整体流程：观测经策略编码器得到嵌入 → RND-OE 计算 OOD 分数 → 策略采样多组动作块 → ACE 计算熵分数 → 两个分数分别在时间窗口内聚合 → 双阈值检测 → 触发/不触发警报。

关键设计¶

Random Network Distillation in Observation Embeddings (RND-OE)
- 功能：检测当前观测是否偏离策略的训练数据分布
- 核心思路：在策略自身的观测嵌入空间（而非原始像素空间）中部署 RND。固定一个随机初始化的教师网络，训练一个学生网络去拟合教师在训练嵌入上的输出。对训练分布内的嵌入，学生能准确拟合教师输出（低预测误差）；对 OOD 嵌入则产生大的预测误差，以此作为 OOD 信号
- 设计动机：在原始观测空间做 OOD 检测容易被无关的视觉变化（如光照、背景纹理）干扰产生误报。使用策略自身学到的嵌入空间，天然过滤了与任务无关的视觉变化，聚焦于对策略决策真正重要的语义表征，提升检测鲁棒性
Action Chunk Entropy (ACE)
- 功能：量化生成式策略在当前状态下产出动作的不确定性
- 核心思路：从策略的条件动作分布中采样一批动作块（action chunks），将每个动作块转换到末端执行器空间后，计算批次内动作的熵分数。专门设计的熵度量能区分"多模态但每个模态都确定"（良性低不确定性）和"模态之间混乱无序"（高不确定性/失败前兆）
- 设计动机：生成式策略（扩散/流匹配）的核心优势就是能学习多模态动作分布。传统 variance/entropy 度量会把合理的多模态行为误判为高不确定性。ACE 在末端执行器空间计算，且能正确处理时间维度上的模态一致性，有效区分良性多模态与真正的动作混乱
共形预测校准与双指标联合决策
- 功能：为两个指标设定有统计保证的阈值，并通过联合决策降低误报
- 核心思路：使用少量成功演示 rollout（仿真 50 条，真实世界仅 10 条）作为校准集，通过共形预测分别计算 RND-OE 和 ACE 的阈值。在推理时，两个分数分别在短移动窗口上取均值以平滑噪声，只有当两个分数同时在窗口内超过各自阈值时才触发失败警报
- 设计动机：单一指标容易产生特定类型的误报——RND-OE 对良性 OOD 敏感，ACE 可能遗漏某些观测异常但动作看似确定的失败。双指标交集逻辑天然过滤掉各自的特有误报来源。共形预测提供了误报率的统计上界保证，增强了方法在安全关键场景中的可信度

损失函数 / 训练策略¶

RND 学生网络训练：使用 MSE 损失 \(\mathcal{L}_{\text{RND}} = \| f_\theta(\mathbf{z}) - f_{\text{teacher}}(\mathbf{z}) \|^2\) 在成功 rollout 的观测嵌入上训练，其中 \(\mathbf{z}\) 是策略编码器的输出
不需要策略训练数据：RND 训练和 ACE 计算均不要求访问策略的原始训练数据集
不需要失败数据：整个校准过程仅依赖成功 rollout，无需任何失败示范
共形预测校准：在校准集上计算分数的 \((1-\alpha)\) 分位数作为阈值，\(\alpha\) 控制允许的误报率上界

实验关键数据¶

主实验¶

FIPER 在 5 个多样化任务环境中评估（3 个仿真 + 2 个真实世界），覆盖扩散策略与流匹配策略，涉及抓取、绳索操作、双臂协作等多种失败模式。

方法	准确率	提前预测时间	误报率	良性OOD区分
OOD-only (RND)	中等	较早	高	差（良性OOD也触发）
Action-only (Variance)	中等	中等	中等	中等
VLM-based	较高	晚（回顾性）	低	—
FIPER (RND-OE + ACE)	最高	最早	最低	最好

FIPER 在所有 5 个环境中均优于 baseline，尤其在区分真实失败 vs 良性 OOD 方面显著领先
在真实世界绳索操作任务中，FIPER 能在失败发生前数秒预警，为人类干预留出足够时间

消融实验¶

消融配置	结果
仅 RND-OE	能检测 OOD 但误报率高，良性 OOD 频繁触发
仅 ACE	能捕捉动作不确定性但遗漏观测端异常导致的失败
RND-OE + ACE（无时间窗口）	检测不稳定，单帧噪声造成误触发
RND-OE + ACE（有时间窗口）	预测稳定性和准确率显著提升
原始像素空间 RND vs 嵌入空间 RND-OE	嵌入空间版本鲁棒性更强，误报更少
不同策略类型（扩散 vs 流匹配）	FIPER 在两种策略上均有效，验证框架通用性
校准数据量敏感性	仿真 50 条、真实 10 条成功 rollout 已足够

关键发现¶

双指标互补是核心：单独使用 RND-OE 或 ACE 都无法可靠预测失败，两者联合显著降低误报同时保持高检测率
嵌入空间 >> 原始空间：在策略嵌入空间执行 RND 比在原始像素空间更有效，因为嵌入空间过滤了与任务无关的视觉变化
ACE 正确处理多模态：传统 variance 度量误把多模态动作分布当作高不确定性，ACE 能正确区分"多模态但确定"和"真正混乱"
极少校准数据即足够：真实世界仅需 10 条成功 rollout 即可有效校准，实用性极强
跨策略泛化：同一框架在扩散策略和流匹配策略上均表现优异，无需针对性修改

亮点与洞察¶

零失败数据需求：从安全部署的角度看，不依赖失败数据是巨大的实用性优势——收集失败数据本身就是危险且昂贵的
输入-输出双端检测：观测端检测"看到的是否异常"，动作端检测"要做的是否混乱"，这种从 I/O 双端夹击的设计哲学简洁而有效
对生成式策略的深刻理解：ACE 的设计体现了对扩散/流匹配模型产出多模态动作分布这一核心特性的深入理解，而非简单套用传统不确定性方法
统计保证增强可信度：共形预测提供误报率的数学上界，这在安全关键的机器人部署场景中至关重要
可解释性：框架能区分失败是因为"观测异常"还是"动作混乱"，为调试和人机交互提供有价值的诊断信息
模块化设计：RND-OE 和 ACE 作为独立模块可即插即用到任何生成式策略上，无需修改策略本身

局限与展望¶

共形预测的理论假设：覆盖率保证依赖数据的交换性（exchangeability）假设，在高度非平稳或对抗性环境中可能不成立
被动预测而非主动恢复：当前仅预测失败，未集成主动恢复机制（如自动请求人类接管、切换到安全策略、或执行回退动作）
时间窗口超参数：窗口大小需要手动选择，不同任务可能需要不同的窗口长度，缺乏自适应调节机制
极端未见场景的延迟：在与训练分布差异极大的全新场景下，检测可能存在一定延迟
末端执行器空间假设：ACE 在末端执行器空间计算，对于非操作类任务（如导航）可能需要重新定义合适的动作空间

评分¶

新颖性: ⭐⭐⭐⭐ — 观测+动作双端检测的联合框架设计新颖，ACE 针对多模态动作分布的熵度量是有价值的技术贡献
实验完整度: ⭐⭐⭐⭐ — 5 个环境涵盖仿真与真实世界，两种策略类型，消融充分，但部分定量对比细节不够详尽
实用性: ⭐⭐⭐⭐⭐ — 不需要失败数据、不需要策略训练数据、极少校准数据、计算轻量、即插即用，实用性极强
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，方法直观易懂，项目主页视频展示直观

title: >- [论文解读] Failure Prediction at Runtime for Generative Robot Policies description: >- [NeurIPS 2025][图像生成][失败预测] 提出 FIPER 框架，通过结合观测空间的 OOD 检测（RND）和动作空间的不确定性量化（ACE），在生成式机器人策略运行时无需失败数据即可实现早期失败预测。 tags: - NeurIPS 2025 - 图像生成 - 失败预测 - 模仿学习 - 扩散模型 - 分布外检测 - 共形预测

Failure Prediction at Runtime for Generative Robot Policies¶

会议: NeurIPS 2025
arXiv: 2510.09459
代码: GitHub
领域: Image Generation / Robot Learning
关键词: 失败预测, 模仿学习, 扩散模型, 分布外检测, 共形预测

一句话总结¶

提出 FIPER 框架，通过结合观测空间的 OOD 检测（RND）和动作空间的不确定性量化（ACE），在生成式机器人策略运行时无需失败数据即可实现早期失败预测。

研究背景与动机¶

生成式模仿学习（如扩散策略和流匹配）使机器人能够执行复杂的长时域任务，但在实际部署中面临安全隐患：

分布偏移问题：未见环境或累积动作误差可能导致不可预测的行为

现有方法的局限： - 仅基于观测的 OOD 检测会对良性 OOD 状态产生大量误报 - VLM 方法只能回顾性地检测失败（为时已晚） - 很多方法依赖失败数据收集（不安全且不现实） - 忽略了生成式策略的多模态动作分布特性

安全关键需求：在人机共存和安全关键环境中，运行时早期失败预测至关重要

方法详解¶

整体框架¶

FIPER（Failure Prediction at Runtime）结合两个互补的失败指标，设计思路基于"失败通常伴随不熟悉的观测和模糊的动作"这一洞察：

观测端指标（RND-OE）：在策略的观测嵌入空间中检测 OOD
动作端指标（ACE）：量化生成动作的不确定性
综合判断：仅当两个指标在时间窗口内同时超过阈值时才触发失败警报

关键设计¶

Random Network Distillation (RND-OE)： - 在策略自身的观测嵌入空间中应用 RND，而非原始观测空间 - 训练一个学生网络拟合随机初始化的教师网络的输出 - 对于训练分布内的嵌入，学生能很好地拟合；对 OOD 嵌入则产生大的预测误差 - 在嵌入空间而非原始像素空间执行 RND 增强了对无关分布偏移的鲁棒性

Action Chunk Entropy (ACE)： - 针对生成式策略的多模态动作分布设计的新型不确定性度量 - 从条件动作分布中采样一批动作 chunk - 在末端执行器空间中计算 entropy score - 轻量级且能有效处理多模态分布（区分良性的多模态 vs 真正的高不确定性）

共形预测校准： - 使用少量成功 rollout（仿真 50 条，真实世界 10 条）校准阈值 - 两个分数在短时间窗口上聚合后，提供统计保证的预测性能

损失函数 / 训练策略¶

RND 学生网络使用 MSE 损失拟合教师输出
不需要训练失败数据或策略训练数据
校准过程仅需成功 rollout，无需标注

实验关键数据¶

主实验¶

FIPER 在 5 个多样化环境中进行评估（仿真 + 真实世界），使用扩散和流匹配两种策略：

仿真环境失败预测性能：

方法	准确率	提前预测时间	误报率
OOD-only	较低	—	高
Action-only	中等	—	中等
FIPER (RND-OE + ACE)	最高	最早	最低

关键对比结果： - FIPER 在区分真正失败和策略可以泛化的良性 OOD 情况方面显著优于仅基于观测或仅基于动作的方法 - 相比现有方法预测更准确且更早

消融实验¶

各组件贡献：

配置	效果
RND-OE only	能检测 OOD 但误报多（良性 OOD 也触发）
ACE only	能捕捉动作不确定性但遗漏部分失败
RND-OE + ACE	两者互补，显著降低误报同时保持高检测率
无时间窗口聚合	检测不稳定
有时间窗口聚合	提高预测稳定性和准确性

不同策略类型：FIPER 在扩散策略和流匹配策略上均表现良好，验证了框架的通用性。

校准数据量：仅需少量成功 rollout（仿真 50 条、真实 10 条）即可有效校准。

关键发现¶

观测与动作的互补性：单独使用任一指标都不足以可靠预测失败，两者结合是关键
嵌入空间 vs 原始空间：在策略嵌入空间中执行 RND 比在原始观测空间中更有效
多模态处理的必要性：传统 entropy 度量无法正确处理多模态分布，ACE 专门解决了这一问题
泛化能力：FIPER 能正确识别策略可以成功泛化到的良性 OOD 状态，避免不必要的干预

亮点与洞察¶

不需要失败数据：从安全性角度看，这是一个非常重要的实用性优势
两阶段互补设计：观测端检测"输入是否异常" + 动作端检测"输出是否混乱"，从输入输出双端夹击
对生成式策略的针对性设计：ACE 考虑了扩散/流匹配模型产生多模态动作分布的特性
共形预测：提供了预测性能的统计保证，增强了方法的可信度
可解释性：能告诉用户失败是因为观测异常还是动作混乱，增加了调试价值

局限与展望¶

共形预测的覆盖率保证依赖于数据交换性假设，在非平稳环境中可能不成立
时间窗口大小需要手动选择，可能需要针对不同任务调整
目前仅被动预测失败，未集成主动恢复策略（如请求人类干预或切换策略）
在极端末见场景下仍可能出现检测延迟

评分¶

新颖性：⭐⭐⭐⭐ — 观测+动作双端检测的组合设计新颖
实验完整度：⭐⭐⭐⭐ — 5 个环境涵盖仿真和真实世界
实用性：⭐⭐⭐⭐⭐ — 不需要失败数据，校准简单，计算轻量
写作质量：⭐⭐⭐⭐ — 动机清晰，方法直观

Failure Prediction at Runtime for Generative Robot Policies¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Failure Prediction at Runtime for Generative Robot Policies¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶