vla-eval: VLA 模型统一评估框架¶
日期: 2026-03-14
arXiv: 2603.13966
代码: vla-eval
领域: 多模态VLM / 评估框架
关键词: VLA evaluation, benchmark harness, reproducibility, robot learning, simulation
一句话总结¶
统一评估框架 vla-eval,WebSocket+msgpack 协议解耦模型与 benchmark,Docker 隔离环境冲突,支持 13 个仿真 benchmark + 6 个模型。并行评估(N=50 shards + B=16 batch)实现 47× 加速,2000 LIBERO episodes 仅需 ~18 min。可复现性审计发现 SimplerEnv 终止语义歧义、CALVIN 隐藏归一化统计等未文档化问题。
研究背景与动机¶
- 评估碎片化: 各 benchmark 独立维护脚本,代码重复、协议不一致、结果不可比
- 环境冲突: LIBERO 需 Python 3.8 + robosuite,ManiSkill2 需 Python 3.10 + SAPIEN,CALVIN 需 PyBullet——无法共存
- 计算成本高: 单次 LIBERO 评估(2000 episodes)需 ~14 小时,多模型×多 benchmark 消融不切实际
- 可复现性差: 论文省略 seed、episode 数、归一化统计等,构成隐性复现障碍
方法详解¶
整体框架¶
Client-Server 架构:
- Model Server(宿主机运行)通过 WebSocket+msgpack 与 Benchmark(Docker 容器内)通信
- 每条消息携带类型(observation/action/episode_start/end)、benchmark 专属 payload、序列号和时间戳
- SyncEpisodeRunner 协调 observe→act→step 循环,故障自动隔离到 episode 级别
- 完整评估仅需两条命令:
vla-eval serve+vla-eval run
关键设计¶
- 模型集成极简化:
- 继承 PredictModelServer 仅需实现
predict(obs, ctx)方法(典型约 50 行代码) - 内置 action chunking(newest/average/EMA 策略)和 batch 推理支持
- 依赖通过 PEP 723 inline metadata 声明,
uv run自动创建隔离环境
- 继承 PredictModelServer 仅需实现
- 双层并行加速:
- 环境端:episode sharding 到 N 个 Docker 容器(N=50 → 32.6× 环境吞吐,λ: 11.2→364.6 obs/s)
- 推理端:batch forward pass(B=16 → 2.8× 模型吞吐,μ: 165.2→468.2 obs/s)
- 最优工作点约束:\(\lambda(N) < 0.8 \cdot \mu(B^*)\) 防止队列堆积,N=50 使用 78% supply 容量
- VLA Leaderboard:
- 汇聚 2685 篇论文的 657 个结果,覆盖 17 个 benchmark、509+ 模型配置
- AI agent(Claude Code + Opus 4.6)通过 MCP 工具自动提取,人工逐条复审
- 社区可通过 PR 贡献修正和缺失结果,并有自动化 schema 验证
实验关键数据¶
支持的 Benchmarks 和模型¶
- 13 个 Benchmark: LIBERO、CALVIN、SimplerEnv、ManiSkill2、RoboCasa、VLABench、RLBench 等(Docker 镜像 4.7–35.6 GB,动作空间 6D–14D)
- 6 个模型服务器: CogACT、OpenVLA、OpenVLA-OFT、π₀/π₀-FAST、GR00T N1、X-VLA
主实验(并行加速,H100)¶
| Benchmark | 配置 | 顺序时间 | 并行时间 | 加速比 |
|---|---|---|---|---|
| LIBERO | 2000 ep, N=50, B=16 | ~14 h | ~18 min | 47× |
| CALVIN | 1000 seq, N=16 | ~8.8 h | ~33 min | 16× |
| SimplerEnv | 288 ep, N=16 | ~1.7 h | ~8.5 min | 12× |
消融实验(可复现性审计,DB-CogACT vs 论文报告)¶
| Benchmark | 指标 | 本框架 | 论文值 | Δ |
|---|---|---|---|---|
| LIBERO Spatial | SR% | 95.2 | 93.8 | +1.4 |
| LIBERO Object | SR% | 98.6 | 97.8 | +0.8 |
| LIBERO Goal | SR% | 95.2 | 96.2 | -1.0 |
| LIBERO Long-Horizon | SR% | 89.6 | 91.8 | -2.2 |
| CALVIN ABC→D | Avg Len | 4.051 | 4.063 | -0.012 |
| SimplerEnv | Avg SR% | 72.22 | 69.45 | +2.77 |
关键发现¶
- LIBERO 4 suite 全部在 ±2.2% 内复现,CALVIN 在 0.3% 内,SimplerEnv 在 ±3% 内
- SimplerEnv
terminatedflag 是瞬时成功事件而非 episode 终止——提前停止会虚高分数 - CALVIN 需硬编码观测归一化统计(15 维 robot-state + 24 维 scene-state),文档未说明
- 509+ 模型中 81% 仅在单一 benchmark 评估,仅 0.6% 在 5+ benchmark 上报告
亮点与洞察¶
- 基础设施级贡献:模型集成一次、benchmark 集成一次,交叉评估矩阵自动运行,新增模型或 benchmark 零耦合
- 47× 加速使大规模消融可行——14 小时降到 18 分钟彻底改变实验节奏,routine 多模型对比成为日常
- 可复现性审计揭示「隐藏要求」的普遍性——终止语义和归一化统计可静默扭曲结果,框架通过保存完整评估配置(Docker tag、seed、episode 数)保障可复现
局限性 / 可改进方向¶
- 审计仅覆盖 1 个模型(DB-CogACT)× 3 个 benchmark,更广泛的跨模型分析待完成
- 仅支持仿真评估,真实机器人评估不在范围内
- Leaderboard 结果来自论文自报告,非独立重新评估验证
- 指标限于任务成功率,缺乏运动质量、效率和安全性等维度
相关工作与启发¶
- vs lm-evaluation-harness: 设计理念一致(统一评估框架),但 VLA 需额外处理环境隔离、物理仿真和实时交互等 LLM 评估不涉及的维度
- vs benchmark 官方脚本: 各自维护→碎片化+环境冲突,vla-eval 通过 Docker 容器化和标准协议彻底解决,模型更换无需改 benchmark 代码
- vs 手动评估: 14h→18min 的 47× 加速让消融实验和多模型对比从不切实际变为日常操作
评分¶
- 新颖性: ⭐⭐⭐ 工程导向贡献为主,核心理念借鉴 lm-evaluation-harness
- 实验充分度: ⭐⭐⭐⭐ 可复现性审计严谨,3 个 benchmark 全在 ±3% 内复现,并行加速分析详实
- 写作质量: ⭐⭐⭐⭐ 四大问题定义清晰,架构设计和协议描述专业
- 价值: ⭐⭐⭐⭐⭐ 对 VLA 社区极高实用价值,解决评估碎片化长期痛点