Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models¶

日期: 2026-03-23
arXiv: 2603.22212
代码: 无
领域: 视频理解 / 多模态VLM
关键词: 世界模型评估, 4D生成, 交互响应, 视频生成基准, AgenticScore

一句话总结¶

首个面向世界模型交互响应能力的综合评估基准，包含 Omni-WorldSuite（1068 条跨 3 个交互层级 × 多场景类型的评估 prompt）和 Omni-Metrics（评估生成视频质量 + 相机-物体可控性 + 交互效果保真度的 agent-based 指标体系），系统评估了 18 个代表性世界模型，揭示当前模型在交互响应方面的关键局限。

研究背景与动机¶

领域现状：视频生成世界模型沿两大范式发展（视频生成和 3D 重建），广泛应用于自动驾驶（GAIA、DriveDreamer、Vista）、具身智能（Cosmos、IRASim、RoboScape）、游戏（Genie、Matrix-Game、WorldPlay），核心能力在于交互响应——交互动作如何驱动时空状态转变。
现有痛点：现有评估基准（VBench、FID/FVD 等）聚焦视觉保真度和文本-视频对齐，无法充分评估世界模型的核心交互能力；WorldScore 仅关注相机运动下的 3D 一致性，交互类型覆盖有限。
核心矛盾：世界模型的未来在 4D 生成（空间结构 + 时间演化），但没有基准系统评估交互响应这一关键维度；交互有多种级别（物体动作 vs 环境变化 vs 全局状态转移），现有评测完全没有按级别覆盖。
本文要解决什么：建立首个以交互为核心轴的综合评估基准，覆盖多层级交互、多场景类型、多维度指标，为 4D 世界模型提供标准化评测工具。
切入角度：将交互分为 3 个层级（物体局部→局部环境→全局环境），设计 dataset-grounded 和 concept-driven 两种 prompt 构建策略，引入 agent-based 自适应指标聚合。
核心 idea 一句话：以交互响应为中心轴，构建分层 prompt suite + 多维 agent-based 指标体系，全面评估世界模型的 4D 交互能力。

方法详解¶

整体框架¶

Omni-WorldBench 由两部分组成：（1）Omni-WorldSuite — 1068 条评估 prompt，覆盖 3 个交互层级（物体-局部-环境-局部-全局-环境）× 通用日常场景 + 任务导向场景（自动驾驶/具身AI/游戏），每条 prompt 包含文本描述 + 初始帧 + 可选相机轨迹；（2）Omni-Metrics — 从生成视频质量、相机-物体可控性、交互效果保真度三个维度评估，通过 MLLM-based AgenticScore 自适应聚合为统一分数。结构化信息提取使用 GroundingDINO+SAM（实体轨迹）、RAFT（光流）和光流变化（相机运动估计）。

关键设计¶

Omni-WorldSuite — 三层交互 Prompt 体系

做什么：系统构建覆盖不同交互复杂度的 1068 条评估 prompt，标注 6 大维度（物理原则/常识/因果/相机运动/闭环一致性/空间约束）
核心思路：Level 1 = 动作仅影响自身物体（如通过水晶球观察视野）；Level 2 = 一个物体直接影响另一个（如篝火中加热金属棒、自动驾驶场景）；Level 3 = 动作引发多物体和更广环境变化（如掰断意面、机器人手臂传递物品）。两种构建策略：Dataset-grounded（从 DriveLM/InternData-A1/Sekai 提取首帧+轨迹，Qwen-VL 生成 caption，人工校验）和 Concept-driven（概念原型采样→ChatGPT-5.2 生成→Gemini/DeepSeek-R1 交叉验证→FLUX.1-dev 生成首帧 33 候选→人工筛选）
设计动机：递进的交互范围对世界模型提出不同的表征和动态建模要求；Dataset-grounded 保证声学/物理真实性，Concept-driven 扩展多样性

Omni-Metrics — 交互效果保真度指标

做什么：评估交互动作是否引发预期效果，核心创新在四个交互指标
核心思路：（1）InterStab-L — 长程时间一致性，在指定重访帧对上计算 SSIM + CLIP 语义相似度，带静态序列惩罚机制；（2）InterStab-N — 非目标区域稳定性，用光流大小衡量非交互区域的运动能量 \(E_{non}(s) = \frac{1}{T}\sum_t \frac{1}{|\mathcal{N}|}\sum_{x \in \mathcal{N}} \|\text{Flow}_t(x)\|\)；（3）InterCov — 物体级因果忠实度，用 VLM 验证受影响实体是否表现出语义一致的响应；（4）InterOrder — 事件时序一致性，用 VLM 验证事件先后顺序与 ground truth 的对齐
设计动机：传统指标（FID/FVD）只测视觉保真度，无法评估交互因果性和物理一致性

AgenticScore — 自适应聚合

做什么：将三个维度的评分自适应加权为统一分数
核心思路：每个维度作为独立评估 agent 打分（交互 \(A_I\)、质量 \(A_G\)、可控 \(A_C\)），聚合 agent（MLLM）根据 prompt 语义分析三个维度的相对重要性，映射到预定义权重 \(\text{AgenticScore} = w_1 A_I + w_2 A_G + w_3 A_C\)
设计动机：不同 prompt 侧重点不同（有的重物理、有的重视觉质量），简单平均不合理

损失函数 / 训练策略¶

Omni-WorldBench 是评估基准而非训练方法，不涉及模型训练。关键评测流程：

结构化信息提取：GroundingDINO + SAM 提取实体轨迹，RAFT 计算光流，光流变化估计相机运动
VLM 辅助评估：InterCov 和 InterOrder 由预训练 VLM 进行语义验证（VQA 形式）
场景切换检测：PySceneDetect ContentDetector（HSV 空间帧差），二值评分（有切换=0，无切换=1）
Object Control：重新定义为 VQA 问题，对均匀采样帧询问目标物体是否存在，避免规则匹配的脆弱性
评测协议：T2V/IT2V 模型用 410 条 prompt，camera-conditioned 模型用 120 条带轨迹的 prompt

实验关键数据¶

主实验¶

模型	类型	InterStab-L	InterCov	InterOrder	交互Avg	质量Avg	可控Avg	AgenticScore
HunyuanVideo	T2V	77.35	53.02	46.78	64.88	77.13	91.92	73.96
T2V-Turbo	T2V	82.98	43.83	36.70	57.42	79.54	86.39	69.85
Wan2.2	IT2V	79.68	56.99	52.70	67.34	78.16	94.01	75.92
Cosmos	IT2V	79.55	53.89	51.81	66.22	77.77	94.90	75.42
OpenSora	IT2V	66.68	62.54	48.17	61.82	84.13	92.82	74.71
Matrix Game2.0	IT2V	47.38	55.27	48.41	42.76	82.77	70.63	60.33
HunyuanWorld	Camera	77.49	55.31	48.15	62.22	80.90	79.67	74.36

消融实验¶

评估维度贡献分析	最优模型	分数	说明
交互效果保真度 Avg	Wan2.2	67.34	最优但仍远未理想
生成视频质量 Avg	OpenSora	84.13	动态度指标差异最大（16.83~99.02）
相机-物体可控性 Avg	Cosmos	94.90	场景切换是主要扣分项
InterStab-N 差异	Matrix→Wan2.2	19.96→79.98	非目标稳定性差异极大
AgenticScore vs 固定平均	—	—	Agent-based 聚合与人类偏好对齐度更高

关键发现¶

当前世界模型在交互响应方面存在严重不足：最优模型 Wan2.2 的交互保真度平均仅 67.34%，InterOrder（事件时序）普遍 < 55%，说明多步因果推理是共同短板
IT2V 模型整体优于 T2V：有初始帧条件约束更好地保持场景一致性（Wan2.2: 75.92 vs HunyuanVideo: 73.96）
生成质量 ≠ 交互能力：视觉质量最好的 OpenSora（84.13）交互保真度仅 61.82；"好看"不等于"物理正确"
相机控制模型交互未必更强：HunyuanGameCraft 的 InterStab-N 仅 51.28，说明关注相机运动可能忽视交互响应
非目标区域稳定性差异极大：Matrix Game2.0 的 InterStab-N 仅 19.96 vs Wan2.2 的 79.98，说明部分模型生成的非交互区域也在剧烈变化
Level 3 交互（全局环境变化）对所有模型都是最大挑战

亮点与洞察¶

填补关键空白：首个以交互响应为核心的世界模型评估体系，此前无类似基准
分层交互设计精巧：3 级交互体系 + 6 大标注维度（物理/因果/常识/相机/闭环/空间约束）覆盖全面
AgenticScore 思路新颖：用 MLLM 做 prompt-aware 的指标权重分配，比固定权重平均更合理
严格的 prompt 质量控制：多轮 AI 生成 + 人工验证 + 交叉检查，首帧图像 33 候选中人工筛选
揭示重要发现：当前世界模型在"理解物理世界如何响应交互"方面仍有根本性缺陷，尤其是多步因果推理和物理一致性

局限性 / 可改进方向¶

InterCov 和 InterOrder 依赖 VLM 评估，VLM 本身的能力上限制约评估准确性
AgenticScore 的权重由 MLLM 排序映射到预定义系数，映射方式的鲁棒性需要更多验证
1068 条 prompt 虽然大于现有基准，但部分细分领域（如游戏）覆盖仍有限
未评估 3D 重建范式的世界模型（如 NeRF-based 方法），侧重视频生成
场景切换检测（Transitions Detect）使用简单二值评分（有=0/无=1），未区分切换严重程度
AgenticScore 的可复现性取决于底层 MLLM 的版本稳定性

评分¶

维度	分数 (1-10)	说明
新颖性	9	首个交互中心的世界模型评估基准，问题定义和框架设计新颖
实验充分度	9	18 个模型全面评估 + 人类对齐验证 + 详细分维度分析
写作质量	8	结构非常清晰，图表丰富，分析深入
价值	9	填补关键评估空白，对世界模型研究社区有高指导价值