OSCBench: Benchmarking Object State Change in Text-to-Video Generation¶
日期: 2026-03-12
arXiv: 2603.11698
代码: 无
领域: 视频理解 / T2V Benchmark
关键词: text-to-video, object state change, benchmark, evaluation, video generation
一句话总结¶
提出 OSCBench,首个专门评估 T2V 生成中物体状态变化(Object State Change)的 benchmark,包含 1,120 个提示覆盖 140 个烹饪场景(常规/新颖/组合),通过 CoT 四维评估揭示即使 Veo-3.1-Fast 在 OSC 准确性上也仅 0.740,开源模型 Open-Sora-2.0 更低至 0.512。
研究背景与动机¶
-
领域现状: T2V 模型在视觉质量和语义对齐上进步显著,但物体状态变化(OSC)——如切柠檬、削胡萝卜等动作引起的物体形态转变——仍是核心难题。现有 benchmark(VBench、T2V-CompBench、PhyWorldBench)主要评估感知质量、文本-视频对齐或物理合理性,未专门测试 OSC。
-
核心矛盾: 模型可以生成视觉逼真的视频,语义对齐得分高(主体识别 0.91-0.99),但无法正确建模动作对物体的物理后果——切苹果后苹果没变、削皮动作被误解、组合动作中间状态丢失。
-
核心 idea: 基于烹饪教学数据构建系统性 OSC benchmark,设计 CoT 引导的结构化评估协议,将 OSC 评估分解为准确性和一致性两个子维度。
方法详解¶
Benchmark 构建¶
- 数据来源:HowToChange 数据集,聚焦烹饪场景中频繁、多样且定义明确的状态变化
- 通过 human-in-the-loop 流程将 20 个动作元素抽象为 9 个动作类别(如 heating、peeling),134 个物体元素聚类为 8 大类 28 子类
- 三种评估场景:
- 常规场景(108 个):常见动作-物体配对,如切柠檬、煎蛋
- 新颖场景(20 个):不常见但可行的配对(如捣碎葡萄柚),测试泛化能力
- 组合场景(12 个):多动作序列组合(如先削皮再切片),测试时序一致性
- 每场景 8 个具体动作-物体组合实例,共 1,120 个提示,平均长度 9.2 词
评估协议(CoT 四维度)¶
- Semantic Adherence: 主体/物体/动作三方面的语义忠实度
- Object State Change: 准确性(物体是否达到正确目标状态)+ 一致性(状态转变是否平滑连贯)
- Scene Alignment: 场景环境的匹配度
- Perceptual Quality: 真实感 + 美学质量
- CoT 评估策略三步走:① 标准重述(criteria grounding)→ ② 证据提取 → ③ 打分决策,引导 MLLM 进行结构化推理而非黑箱打分
评估模型¶
- 开源:Open-Sora-2.0、HunyuanVideo、HunyuanVideo-1.5、Wan-2.2
- 闭源:Kling-2.5-Turbo、Veo-3.1-Fast
- 自动评估器:GPT-5.2(主)、Qwen3-VL-30B、GPT-5-mini、ViCLIP
实验关键数据¶
Table 1: 人工评估结果(归一化至 0-1)
| 模型 | 主体 | 物体 | 动作 | OSC准确性 | OSC一致性 | 场景对齐 | 真实感 | 美学 |
|---|---|---|---|---|---|---|---|---|
| Open-Sora-2.0 | 0.910 | 0.722 | 0.616 | 0.512 | 0.658 | 0.892 | 0.634 | 0.712 |
| HunyuanVideo | 0.898 | 0.764 | 0.562 | 0.466 | 0.730 | 0.948 | 0.752 | 0.782 |
| HunyuanVideo-1.5 | 0.982 | 0.788 | 0.642 | 0.546 | 0.708 | 0.936 | 0.736 | 0.778 |
| Wan-2.2 | 0.950 | 0.774 | 0.570 | 0.518 | 0.710 | 0.974 | 0.768 | 0.798 |
| Kling-2.5-Turbo | 0.990 | 0.792 | 0.742 | 0.652 | 0.692 | 0.972 | 0.772 | 0.802 |
| Veo-3.1-Fast | 0.976 | 0.834 | 0.802 | 0.740 | 0.702 | 0.978 | 0.782 | 0.802 |
Table 4: 不同场景类型下的 OSC 得分(人工评估,准确性+一致性均值)
| 模型 | 常规 | 新颖 | 组合 |
|---|---|---|---|
| Open-Sora-2.0 | 0.410 | 0.389 | 0.416 |
| HunyuanVideo | 0.472 | 0.405 | 0.437 |
| HunyuanVideo-1.5 | 0.572 | 0.559 | 0.556 |
| Wan-2.2 | 0.635 | 0.531 | 0.594 |
| Kling-2.5-Turbo | 0.744 | 0.714 | 0.699 |
| Veo-3.1-Fast | 0.797 | 0.731 | 0.805 |
关键发现¶
- 语义对齐 vs OSC 的鸿沟:所有模型主体识别均超 0.89,但 OSC 准确性最高仅 0.740(Veo-3.1-Fast),最低 0.466(HunyuanVideo),差距巨大
- 新颖场景是最大瓶颈:所有模型在 novel 场景上得分最低,Veo-3.1-Fast 从常规 0.797 降至新颖 0.731,Open-Sora-2.0 降至 0.389,说明泛化能力严重不足
- 组合场景优于新颖场景:组合已知动作比推理未见组合更容易,但仍需保持中间状态连贯
- 动作类别差异大:rolling、heating 等视觉显著动作得分高,peeling、coating、pressing 等需要精细手-物交互的动作得分低
- Human-MLLM 相关性:GPT-5.2 + CoT 与人工评估相关性最高,模型排名一致,但感知质量维度相关性较弱
- 典型失败模式:切苹果后苹果未变(前三个模型)、Wan-2.2 出现半切苹果回弹为完整状态、Kling-2.5-Turbo 刀碗交互不真实
亮点与局限¶
- 亮点:首个 OSC 专用 benchmark,填补了 T2V 评估中物体状态变化维度的空白
- 亮点:CoT 结构化评估比黑箱打分更可靠,GPT-5.2 + CoT 与人工排名完全一致
- 亮点:三种场景设计(常规/新颖/组合)全面测试模型的记忆、泛化与组合能力
- 局限:仅限烹饪域,未覆盖更广泛的状态变化(如燃烧、溶解、氧化等化学/物理过程)
- 局限:提示较短(均 9.2 词),未测试长文本复杂描述下的 OSC 表现
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 OSC 专用 benchmark,问题定义清晰
- 实验充分度: ⭐⭐⭐⭐ 6 模型 × 3 场景 × 4 维度,人工+自动双评估
- 价值: ⭐⭐⭐⭐ 揭示 T2V 物理推理的关键短板,指引未来方向