SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning¶

会议: NeurIPS 2025 arXiv: 2503.03480 代码: 项目主页领域: llm_alignment 关键词: VLA safety, constrained MDP, safe reinforcement learning, embodied AI, robot safety

一句话总结¶

首次系统性地将安全强化学习（SafeRL）的 CMDP 框架应用于视觉-语言-动作模型（VLA）的安全对齐，通过建模-激发-约束-保证四阶段集成安全方法（ISA），在移动操作任务上实现 83.58% 的安全违规成本下降同时保持任务性能（+3.85%）。

研究背景与动机¶

VLA 模型的安全挑战：VLA 模型（如 RT-2、OpenVLA）正在成为通用机器人策略，但在真实世界部署中面临对环境、机器人自身和人类的物理安全风险
现有方法的不足：LLM/VLM 的安全对齐方法（RLHF 等）聚焦于抽象意图级安全，无法直接应用于物理世界安全约束；现有 VLA 训练（IL 或标准 RL）缺乏显式安全约束机制
核心问题：如何在不损失性能的前提下将安全约束显式集成到 VLA 中？

方法详解¶

整体框架：集成安全方法（ISA）¶

ISA 包含四个相互关联的阶段：Modeling（建模安全需求）→ Eliciting（激发不安全行为）→ Constraining（SafeRL 约束策略）→ Assuring（针对性安全评估）

问题建模：CMDP 框架¶

将 VLA 安全对齐形式化为约束马尔可夫决策过程（CMDP），VLA 策略将观测历史映射到动作，同时约束安全成本不超过阈值：

\[\pi^* = \arg\max_{\pi_\theta \in \Pi_\mathcal{C}} \mathcal{J}(\pi_\theta)\]

定义了5类安全关键组件： - Corners：狭窄角落导致卡死或反复碰撞 - Blind Spots：短期空间感知失败与已见但不可见障碍物碰撞 - Fragile Collections：操作过程中对附近易碎物品造成附带损害 - Critical Points：间接动作使不稳定物品掉落 - Dangerous Equipment：与危险设备的禁止交互

风险激发：Safety-CHORES 基准¶

利用 ProcTHOR 生成 15 万个多样化室内场景，结合 Objaverse 提供 80 万个 3D 资产，在 AI2THOR 模拟器中系统化激发安全违规。

约束策略学习：Lagrangian 方法¶

通过 Lagrangian 松弛将约束优化转化为无约束的 min-max 问题：

\[\min_\theta \max_{\lambda \geq 0} [-\mathcal{J}_r(\theta) + \sum_{i=0}^n \lambda_i \mathcal{J}_{c_i}(\theta)]\]

动态 Lagrange 乘子自适应平衡奖励与成本目标，先优化安全、再最大化任务性能。

安全保证¶

从三个维度评估：测试时安全（标准测试集+OOD）、长尾安全（低频危险事件）、极端失败安全（任务不可完成时行为）。

实验关键数据¶

主实验：ISA vs 基线方法¶

方法	ObjNav SR↑/CC↓	PickUp SR↑/CC↓	Fetch SR↑/CC↓
SPOC-DINOv2	0.43/13.50	0.86/10.29	0.14/13.97
FLaRe	0.822/12.36	0.912/7.08	0.605/43.36
ISA	0.865/1.85	0.928/0.37	0.637/8.08

CC 平均下降 83.58%，SR 平均提升 +3.85%。

OOD 鲁棒性¶

扰动	ObjNav CC	PickUp CC	Fetch CC
无扰动	1.85	0.37	8.98
+Color	3.10	1.82	15.34
+All	3.21	0.41	12.50

安全行为在 OOD 下表现稳定。

极端失败场景¶

方法	平均 CC
FLaRe	71.68
SPOC	14.63
ISA	2.20

即使任务完全失败（SR≈0），ISA 仍保持安全行为。

消融实验¶

消融	关键发现
移除安全关键组件	CC 从 1.854 增至 5.01
固定惩罚系数	动态 Lagrange 乘子显著优于固定系数
不同 cost threshold	20% 阈值提供最佳平衡

关键发现¶

安全与性能解耦：ISA 安全成本分布与任务成功/失败无关，FLaRe 存在显著负相关
消除灾难性轨迹：ISA 完全消除 CC>10 的高风险轨迹
跨模型通用性：在 EmbCLIP、Embodied-Codebook 等不同 VLA 上均有效

亮点与洞察¶

首次系统的 VLA 安全对齐：从建模到保证的完整 pipeline，是集成安全方法
安全与性能的 Pareto 最优：通过 CMDP 框架显式权衡
Safety-CHORES 基准：精心设计的安全关键场景，比现有基准更能暴露 VLA 漏洞（CC 高出 2 倍）
Sim-to-Real 验证：在物理机器人平台上成功部署

局限性 / 可改进方向¶

Sim-to-Real 仅验证了 Safety-PickUp 单一任务
安全谓词需要人工设计，自动化安全规范提取是重要方向
轨迹级成本归因仅归到违规段最后一步，信用分配待研究
SafeRL 训练需要 15M-25M 步，计算开销较高

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 SafeRL/CMDP 系统性应用于 VLA 安全对齐
实验充分度: ⭐⭐⭐⭐⭐ 主实验+消融+OOD+极端失败+跨模型+Sim-to-Real
写作质量: ⭐⭐⭐⭐ 四阶段 ISA 框架清晰，但论文篇幅较长
价值: ⭐⭐⭐⭐⭐ 对具身 AI 安全领域有里程碑意义