Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models¶
日期: 2026-03-23
arXiv: 2603.22212
代码: 无
领域: 视频理解 / 多模态VLM
关键词: 世界模型评估, 4D生成, 交互响应, 视频生成基准, AgenticScore
一句话总结¶
首个面向世界模型交互响应能力的综合评估基准,包含 Omni-WorldSuite(1068 条跨 3 个交互层级 × 多场景类型的评估 prompt)和 Omni-Metrics(评估生成视频质量 + 相机-物体可控性 + 交互效果保真度的 agent-based 指标体系),系统评估了 18 个代表性世界模型,揭示当前模型在交互响应方面的关键局限。
研究背景与动机¶
- 领域现状:视频生成世界模型沿两大范式发展(视频生成和 3D 重建),广泛应用于自动驾驶(GAIA、DriveDreamer、Vista)、具身智能(Cosmos、IRASim、RoboScape)、游戏(Genie、Matrix-Game、WorldPlay),核心能力在于交互响应——交互动作如何驱动时空状态转变。
- 现有痛点:现有评估基准(VBench、FID/FVD 等)聚焦视觉保真度和文本-视频对齐,无法充分评估世界模型的核心交互能力;WorldScore 仅关注相机运动下的 3D 一致性,交互类型覆盖有限。
- 核心矛盾:世界模型的未来在 4D 生成(空间结构 + 时间演化),但没有基准系统评估交互响应这一关键维度;交互有多种级别(物体动作 vs 环境变化 vs 全局状态转移),现有评测完全没有按级别覆盖。
- 本文要解决什么:建立首个以交互为核心轴的综合评估基准,覆盖多层级交互、多场景类型、多维度指标,为 4D 世界模型提供标准化评测工具。
- 切入角度:将交互分为 3 个层级(物体局部→局部环境→全局环境),设计 dataset-grounded 和 concept-driven 两种 prompt 构建策略,引入 agent-based 自适应指标聚合。
- 核心 idea 一句话:以交互响应为中心轴,构建分层 prompt suite + 多维 agent-based 指标体系,全面评估世界模型的 4D 交互能力。
方法详解¶
整体框架¶
Omni-WorldBench 由两部分组成:(1)Omni-WorldSuite — 1068 条评估 prompt,覆盖 3 个交互层级(物体-局部-环境-局部-全局-环境)× 通用日常场景 + 任务导向场景(自动驾驶/具身AI/游戏),每条 prompt 包含文本描述 + 初始帧 + 可选相机轨迹;(2)Omni-Metrics — 从生成视频质量、相机-物体可控性、交互效果保真度三个维度评估,通过 MLLM-based AgenticScore 自适应聚合为统一分数。结构化信息提取使用 GroundingDINO+SAM(实体轨迹)、RAFT(光流)和光流变化(相机运动估计)。
关键设计¶
Omni-WorldSuite — 三层交互 Prompt 体系
- 做什么:系统构建覆盖不同交互复杂度的 1068 条评估 prompt,标注 6 大维度(物理原则/常识/因果/相机运动/闭环一致性/空间约束)
- 核心思路:Level 1 = 动作仅影响自身物体(如通过水晶球观察视野);Level 2 = 一个物体直接影响另一个(如篝火中加热金属棒、自动驾驶场景);Level 3 = 动作引发多物体和更广环境变化(如掰断意面、机器人手臂传递物品)。两种构建策略:Dataset-grounded(从 DriveLM/InternData-A1/Sekai 提取首帧+轨迹,Qwen-VL 生成 caption,人工校验)和 Concept-driven(概念原型采样→ChatGPT-5.2 生成→Gemini/DeepSeek-R1 交叉验证→FLUX.1-dev 生成首帧 33 候选→人工筛选)
- 设计动机:递进的交互范围对世界模型提出不同的表征和动态建模要求;Dataset-grounded 保证声学/物理真实性,Concept-driven 扩展多样性
Omni-Metrics — 交互效果保真度指标
- 做什么:评估交互动作是否引发预期效果,核心创新在四个交互指标
- 核心思路:(1)InterStab-L — 长程时间一致性,在指定重访帧对上计算 SSIM + CLIP 语义相似度,带静态序列惩罚机制;(2)InterStab-N — 非目标区域稳定性,用光流大小衡量非交互区域的运动能量 \(E_{non}(s) = \frac{1}{T}\sum_t \frac{1}{|\mathcal{N}|}\sum_{x \in \mathcal{N}} \|\text{Flow}_t(x)\|\);(3)InterCov — 物体级因果忠实度,用 VLM 验证受影响实体是否表现出语义一致的响应;(4)InterOrder — 事件时序一致性,用 VLM 验证事件先后顺序与 ground truth 的对齐
- 设计动机:传统指标(FID/FVD)只测视觉保真度,无法评估交互因果性和物理一致性
AgenticScore — 自适应聚合
- 做什么:将三个维度的评分自适应加权为统一分数
- 核心思路:每个维度作为独立评估 agent 打分(交互 \(A_I\)、质量 \(A_G\)、可控 \(A_C\)),聚合 agent(MLLM)根据 prompt 语义分析三个维度的相对重要性,映射到预定义权重 \(\text{AgenticScore} = w_1 A_I + w_2 A_G + w_3 A_C\)
- 设计动机:不同 prompt 侧重点不同(有的重物理、有的重视觉质量),简单平均不合理
损失函数 / 训练策略¶
Omni-WorldBench 是评估基准而非训练方法,不涉及模型训练。关键评测流程:
- 结构化信息提取:GroundingDINO + SAM 提取实体轨迹,RAFT 计算光流,光流变化估计相机运动
- VLM 辅助评估:InterCov 和 InterOrder 由预训练 VLM 进行语义验证(VQA 形式)
- 场景切换检测:PySceneDetect ContentDetector(HSV 空间帧差),二值评分(有切换=0,无切换=1)
- Object Control:重新定义为 VQA 问题,对均匀采样帧询问目标物体是否存在,避免规则匹配的脆弱性
- 评测协议:T2V/IT2V 模型用 410 条 prompt,camera-conditioned 模型用 120 条带轨迹的 prompt
实验关键数据¶
主实验¶
| 模型 | 类型 | InterStab-L | InterCov | InterOrder | 交互Avg | 质量Avg | 可控Avg | AgenticScore |
|---|---|---|---|---|---|---|---|---|
| HunyuanVideo | T2V | 77.35 | 53.02 | 46.78 | 64.88 | 77.13 | 91.92 | 73.96 |
| T2V-Turbo | T2V | 82.98 | 43.83 | 36.70 | 57.42 | 79.54 | 86.39 | 69.85 |
| Wan2.2 | IT2V | 79.68 | 56.99 | 52.70 | 67.34 | 78.16 | 94.01 | 75.92 |
| Cosmos | IT2V | 79.55 | 53.89 | 51.81 | 66.22 | 77.77 | 94.90 | 75.42 |
| OpenSora | IT2V | 66.68 | 62.54 | 48.17 | 61.82 | 84.13 | 92.82 | 74.71 |
| Matrix Game2.0 | IT2V | 47.38 | 55.27 | 48.41 | 42.76 | 82.77 | 70.63 | 60.33 |
| HunyuanWorld | Camera | 77.49 | 55.31 | 48.15 | 62.22 | 80.90 | 79.67 | 74.36 |
消融实验¶
| 评估维度贡献分析 | 最优模型 | 分数 | 说明 |
|---|---|---|---|
| 交互效果保真度 Avg | Wan2.2 | 67.34 | 最优但仍远未理想 |
| 生成视频质量 Avg | OpenSora | 84.13 | 动态度指标差异最大(16.83~99.02) |
| 相机-物体可控性 Avg | Cosmos | 94.90 | 场景切换是主要扣分项 |
| InterStab-N 差异 | Matrix→Wan2.2 | 19.96→79.98 | 非目标稳定性差异极大 |
| AgenticScore vs 固定平均 | — | — | Agent-based 聚合与人类偏好对齐度更高 |
关键发现¶
- 当前世界模型在交互响应方面存在严重不足:最优模型 Wan2.2 的交互保真度平均仅 67.34%,InterOrder(事件时序)普遍 < 55%,说明多步因果推理是共同短板
- IT2V 模型整体优于 T2V:有初始帧条件约束更好地保持场景一致性(Wan2.2: 75.92 vs HunyuanVideo: 73.96)
- 生成质量 ≠ 交互能力:视觉质量最好的 OpenSora(84.13)交互保真度仅 61.82;"好看"不等于"物理正确"
- 相机控制模型交互未必更强:HunyuanGameCraft 的 InterStab-N 仅 51.28,说明关注相机运动可能忽视交互响应
- 非目标区域稳定性差异极大:Matrix Game2.0 的 InterStab-N 仅 19.96 vs Wan2.2 的 79.98,说明部分模型生成的非交互区域也在剧烈变化
- Level 3 交互(全局环境变化)对所有模型都是最大挑战
亮点与洞察¶
- 填补关键空白:首个以交互响应为核心的世界模型评估体系,此前无类似基准
- 分层交互设计精巧:3 级交互体系 + 6 大标注维度(物理/因果/常识/相机/闭环/空间约束)覆盖全面
- AgenticScore 思路新颖:用 MLLM 做 prompt-aware 的指标权重分配,比固定权重平均更合理
- 严格的 prompt 质量控制:多轮 AI 生成 + 人工验证 + 交叉检查,首帧图像 33 候选中人工筛选
- 揭示重要发现:当前世界模型在"理解物理世界如何响应交互"方面仍有根本性缺陷,尤其是多步因果推理和物理一致性
局限性 / 可改进方向¶
- InterCov 和 InterOrder 依赖 VLM 评估,VLM 本身的能力上限制约评估准确性
- AgenticScore 的权重由 MLLM 排序映射到预定义系数,映射方式的鲁棒性需要更多验证
- 1068 条 prompt 虽然大于现有基准,但部分细分领域(如游戏)覆盖仍有限
- 未评估 3D 重建范式的世界模型(如 NeRF-based 方法),侧重视频生成
- 场景切换检测(Transitions Detect)使用简单二值评分(有=0/无=1),未区分切换严重程度
- AgenticScore 的可复现性取决于底层 MLLM 的版本稳定性
相关工作与启发¶
- vs VBench:VBench 评估通用视频生成质量(16 维度),不涉及交互能力;Omni-WorldBench 以交互为核心,覆盖 VBench 不涉及的因果/物理/时序逻辑——两者互补
- vs WorldScore:WorldScore 聚焦几何一致性和相机运动下的 3D 场景生成,交互仅限相机运动;Omni-WorldBench 覆盖物体级 / 局部环境 / 全局环境三层交互
- vs WorldModelBench:WorldModelBench 覆盖面较窄;Omni-WorldBench 支持最全面的 prompt 模态(文本+图像+轨迹)和能力维度,是目前覆盖最广的世界模型评测基准
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 新颖性 | 9 | 首个交互中心的世界模型评估基准,问题定义和框架设计新颖 |
| 实验充分度 | 9 | 18 个模型全面评估 + 人类对齐验证 + 详细分维度分析 |
| 写作质量 | 8 | 结构非常清晰,图表丰富,分析深入 |
| 价值 | 9 | 填补关键评估空白,对世界模型研究社区有高指导价值 |