跳转至

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

日期: 2026-03-12
arXiv: 2603.11698
代码: 无
领域: 视频理解 / T2V Benchmark
关键词: text-to-video, object state change, benchmark, evaluation, video generation

一句话总结

提出 OSCBench,首个专门评估 T2V 生成中物体状态变化(Object State Change)的 benchmark,包含 1,120 个提示覆盖 140 个烹饪场景(常规/新颖/组合),通过 CoT 四维评估揭示即使 Veo-3.1-Fast 在 OSC 准确性上也仅 0.740,开源模型 Open-Sora-2.0 更低至 0.512。

研究背景与动机

  1. 领域现状: T2V 模型在视觉质量和语义对齐上进步显著,但物体状态变化(OSC)——如切柠檬、削胡萝卜等动作引起的物体形态转变——仍是核心难题。现有 benchmark(VBench、T2V-CompBench、PhyWorldBench)主要评估感知质量、文本-视频对齐或物理合理性,未专门测试 OSC。

  2. 核心矛盾: 模型可以生成视觉逼真的视频,语义对齐得分高(主体识别 0.91-0.99),但无法正确建模动作对物体的物理后果——切苹果后苹果没变、削皮动作被误解、组合动作中间状态丢失。

  3. 核心 idea: 基于烹饪教学数据构建系统性 OSC benchmark,设计 CoT 引导的结构化评估协议,将 OSC 评估分解为准确性和一致性两个子维度。

方法详解

Benchmark 构建

  • 数据来源:HowToChange 数据集,聚焦烹饪场景中频繁、多样且定义明确的状态变化
  • 通过 human-in-the-loop 流程将 20 个动作元素抽象为 9 个动作类别(如 heating、peeling),134 个物体元素聚类为 8 大类 28 子类
  • 三种评估场景
    • 常规场景(108 个):常见动作-物体配对,如切柠檬、煎蛋
    • 新颖场景(20 个):不常见但可行的配对(如捣碎葡萄柚),测试泛化能力
    • 组合场景(12 个):多动作序列组合(如先削皮再切片),测试时序一致性
  • 每场景 8 个具体动作-物体组合实例,共 1,120 个提示,平均长度 9.2 词

评估协议(CoT 四维度)

  • Semantic Adherence: 主体/物体/动作三方面的语义忠实度
  • Object State Change: 准确性(物体是否达到正确目标状态)+ 一致性(状态转变是否平滑连贯)
  • Scene Alignment: 场景环境的匹配度
  • Perceptual Quality: 真实感 + 美学质量
  • CoT 评估策略三步走:① 标准重述(criteria grounding)→ ② 证据提取 → ③ 打分决策,引导 MLLM 进行结构化推理而非黑箱打分

评估模型

  • 开源:Open-Sora-2.0、HunyuanVideo、HunyuanVideo-1.5、Wan-2.2
  • 闭源:Kling-2.5-Turbo、Veo-3.1-Fast
  • 自动评估器:GPT-5.2(主)、Qwen3-VL-30B、GPT-5-mini、ViCLIP

实验关键数据

Table 1: 人工评估结果(归一化至 0-1)

模型 主体 物体 动作 OSC准确性 OSC一致性 场景对齐 真实感 美学
Open-Sora-2.0 0.910 0.722 0.616 0.512 0.658 0.892 0.634 0.712
HunyuanVideo 0.898 0.764 0.562 0.466 0.730 0.948 0.752 0.782
HunyuanVideo-1.5 0.982 0.788 0.642 0.546 0.708 0.936 0.736 0.778
Wan-2.2 0.950 0.774 0.570 0.518 0.710 0.974 0.768 0.798
Kling-2.5-Turbo 0.990 0.792 0.742 0.652 0.692 0.972 0.772 0.802
Veo-3.1-Fast 0.976 0.834 0.802 0.740 0.702 0.978 0.782 0.802

Table 4: 不同场景类型下的 OSC 得分(人工评估,准确性+一致性均值)

模型 常规 新颖 组合
Open-Sora-2.0 0.410 0.389 0.416
HunyuanVideo 0.472 0.405 0.437
HunyuanVideo-1.5 0.572 0.559 0.556
Wan-2.2 0.635 0.531 0.594
Kling-2.5-Turbo 0.744 0.714 0.699
Veo-3.1-Fast 0.797 0.731 0.805

关键发现

  • 语义对齐 vs OSC 的鸿沟:所有模型主体识别均超 0.89,但 OSC 准确性最高仅 0.740(Veo-3.1-Fast),最低 0.466(HunyuanVideo),差距巨大
  • 新颖场景是最大瓶颈:所有模型在 novel 场景上得分最低,Veo-3.1-Fast 从常规 0.797 降至新颖 0.731,Open-Sora-2.0 降至 0.389,说明泛化能力严重不足
  • 组合场景优于新颖场景:组合已知动作比推理未见组合更容易,但仍需保持中间状态连贯
  • 动作类别差异大:rolling、heating 等视觉显著动作得分高,peeling、coating、pressing 等需要精细手-物交互的动作得分低
  • Human-MLLM 相关性:GPT-5.2 + CoT 与人工评估相关性最高,模型排名一致,但感知质量维度相关性较弱
  • 典型失败模式:切苹果后苹果未变(前三个模型)、Wan-2.2 出现半切苹果回弹为完整状态、Kling-2.5-Turbo 刀碗交互不真实

亮点与局限

  • 亮点:首个 OSC 专用 benchmark,填补了 T2V 评估中物体状态变化维度的空白
  • 亮点:CoT 结构化评估比黑箱打分更可靠,GPT-5.2 + CoT 与人工排名完全一致
  • 亮点:三种场景设计(常规/新颖/组合)全面测试模型的记忆、泛化与组合能力
  • 局限:仅限烹饪域,未覆盖更广泛的状态变化(如燃烧、溶解、氧化等化学/物理过程)
  • 局限:提示较短(均 9.2 词),未测试长文本复杂描述下的 OSC 表现

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 OSC 专用 benchmark,问题定义清晰
  • 实验充分度: ⭐⭐⭐⭐ 6 模型 × 3 场景 × 4 维度,人工+自动双评估
  • 价值: ⭐⭐⭐⭐ 揭示 T2V 物理推理的关键短板,指引未来方向