vla-eval: VLA 模型统一评估框架¶

日期: 2026-03-14
arXiv: 2603.13966
代码: vla-eval
领域: 多模态VLM / 评估框架
关键词: VLA evaluation, benchmark harness, reproducibility, robot learning, simulation

一句话总结¶

统一评估框架 vla-eval，WebSocket+msgpack 协议解耦模型与 benchmark，Docker 隔离环境冲突，支持 13 个仿真 benchmark + 6 个模型。并行评估（N=50 shards + B=16 batch）实现 47× 加速，2000 LIBERO episodes 仅需 ~18 min。可复现性审计发现 SimplerEnv 终止语义歧义、CALVIN 隐藏归一化统计等未文档化问题。

研究背景与动机¶

评估碎片化: 各 benchmark 独立维护脚本，代码重复、协议不一致、结果不可比
环境冲突: LIBERO 需 Python 3.8 + robosuite，ManiSkill2 需 Python 3.10 + SAPIEN，CALVIN 需 PyBullet——无法共存
计算成本高: 单次 LIBERO 评估（2000 episodes）需 ~14 小时，多模型×多 benchmark 消融不切实际
可复现性差: 论文省略 seed、episode 数、归一化统计等，构成隐性复现障碍

方法详解¶

整体框架¶

Client-Server 架构：

Model Server（宿主机运行）通过 WebSocket+msgpack 与 Benchmark（Docker 容器内）通信
每条消息携带类型（observation/action/episode_start/end）、benchmark 专属 payload、序列号和时间戳
SyncEpisodeRunner 协调 observe→act→step 循环，故障自动隔离到 episode 级别
完整评估仅需两条命令：vla-eval serve + vla-eval run

关键设计¶

模型集成极简化:
- 继承 PredictModelServer 仅需实现 predict(obs, ctx) 方法（典型约 50 行代码）
- 内置 action chunking（newest/average/EMA 策略）和 batch 推理支持
- 依赖通过 PEP 723 inline metadata 声明，uv run 自动创建隔离环境
双层并行加速:
- 环境端：episode sharding 到 N 个 Docker 容器（N=50 → 32.6× 环境吞吐，λ: 11.2→364.6 obs/s）
- 推理端：batch forward pass（B=16 → 2.8× 模型吞吐，μ: 165.2→468.2 obs/s）
- 最优工作点约束：\(\lambda(N) < 0.8 \cdot \mu(B^*)\) 防止队列堆积，N=50 使用 78% supply 容量
VLA Leaderboard:
- 汇聚 2685 篇论文的 657 个结果，覆盖 17 个 benchmark、509+ 模型配置
- AI agent（Claude Code + Opus 4.6）通过 MCP 工具自动提取，人工逐条复审
- 社区可通过 PR 贡献修正和缺失结果，并有自动化 schema 验证

实验关键数据¶

支持的 Benchmarks 和模型¶

13 个 Benchmark: LIBERO、CALVIN、SimplerEnv、ManiSkill2、RoboCasa、VLABench、RLBench 等（Docker 镜像 4.7–35.6 GB，动作空间 6D–14D）
6 个模型服务器: CogACT、OpenVLA、OpenVLA-OFT、π₀/π₀-FAST、GR00T N1、X-VLA

主实验（并行加速，H100）¶

Benchmark	配置	顺序时间	并行时间	加速比
LIBERO	2000 ep, N=50, B=16	~14 h	~18 min	47×
CALVIN	1000 seq, N=16	~8.8 h	~33 min	16×
SimplerEnv	288 ep, N=16	~1.7 h	~8.5 min	12×

消融实验（可复现性审计，DB-CogACT vs 论文报告）¶

Benchmark	指标	本框架	论文值	Δ
LIBERO Spatial	SR%	95.2	93.8	+1.4
LIBERO Object	SR%	98.6	97.8	+0.8
LIBERO Goal	SR%	95.2	96.2	-1.0
LIBERO Long-Horizon	SR%	89.6	91.8	-2.2
CALVIN ABC→D	Avg Len	4.051	4.063	-0.012
SimplerEnv	Avg SR%	72.22	69.45	+2.77

关键发现¶

LIBERO 4 suite 全部在 ±2.2% 内复现，CALVIN 在 0.3% 内，SimplerEnv 在 ±3% 内
SimplerEnv terminated flag 是瞬时成功事件而非 episode 终止——提前停止会虚高分数
CALVIN 需硬编码观测归一化统计（15 维 robot-state + 24 维 scene-state），文档未说明
509+ 模型中 81% 仅在单一 benchmark 评估，仅 0.6% 在 5+ benchmark 上报告

亮点与洞察¶

基础设施级贡献：模型集成一次、benchmark 集成一次，交叉评估矩阵自动运行，新增模型或 benchmark 零耦合
47× 加速使大规模消融可行——14 小时降到 18 分钟彻底改变实验节奏，routine 多模型对比成为日常
可复现性审计揭示「隐藏要求」的普遍性——终止语义和归一化统计可静默扭曲结果，框架通过保存完整评估配置（Docker tag、seed、episode 数）保障可复现

局限性 / 可改进方向¶

审计仅覆盖 1 个模型（DB-CogACT）× 3 个 benchmark，更广泛的跨模型分析待完成
仅支持仿真评估，真实机器人评估不在范围内
Leaderboard 结果来自论文自报告，非独立重新评估验证
指标限于任务成功率，缺乏运动质量、效率和安全性等维度

评分¶

新颖性: ⭐⭐⭐ 工程导向贡献为主，核心理念借鉴 lm-evaluation-harness
实验充分度: ⭐⭐⭐⭐ 可复现性审计严谨，3 个 benchmark 全在 ±3% 内复现，并行加速分析详实
写作质量: ⭐⭐⭐⭐ 四大问题定义清晰，架构设计和协议描述专业
价值: ⭐⭐⭐⭐⭐ 对 VLA 社区极高实用价值，解决评估碎片化长期痛点