OSCBench: Benchmarking Object State Change in Text-to-Video Generation¶

日期: 2026-03-12
arXiv: 2603.11698
代码: 无
领域: 视频理解 / T2V Benchmark
关键词: text-to-video, object state change, benchmark, evaluation, video generation

一句话总结¶

提出 OSCBench，首个专门评估 T2V 生成中物体状态变化（Object State Change）的 benchmark，包含 1,120 个提示覆盖 140 个烹饪场景（常规/新颖/组合），通过 CoT 四维评估揭示即使 Veo-3.1-Fast 在 OSC 准确性上也仅 0.740，开源模型 Open-Sora-2.0 更低至 0.512。

研究背景与动机¶

领域现状: T2V 模型在视觉质量和语义对齐上进步显著，但物体状态变化（OSC）——如切柠檬、削胡萝卜等动作引起的物体形态转变——仍是核心难题。现有 benchmark（VBench、T2V-CompBench、PhyWorldBench）主要评估感知质量、文本-视频对齐或物理合理性，未专门测试 OSC。
核心矛盾: 模型可以生成视觉逼真的视频，语义对齐得分高（主体识别 0.91-0.99），但无法正确建模动作对物体的物理后果——切苹果后苹果没变、削皮动作被误解、组合动作中间状态丢失。
核心 idea: 基于烹饪教学数据构建系统性 OSC benchmark，设计 CoT 引导的结构化评估协议，将 OSC 评估分解为准确性和一致性两个子维度。

方法详解¶

Benchmark 构建¶

数据来源：HowToChange 数据集，聚焦烹饪场景中频繁、多样且定义明确的状态变化
通过 human-in-the-loop 流程将 20 个动作元素抽象为 9 个动作类别（如 heating、peeling），134 个物体元素聚类为 8 大类 28 子类
三种评估场景：
- 常规场景（108 个）：常见动作-物体配对，如切柠檬、煎蛋
- 新颖场景（20 个）：不常见但可行的配对（如捣碎葡萄柚），测试泛化能力
- 组合场景（12 个）：多动作序列组合（如先削皮再切片），测试时序一致性
每场景 8 个具体动作-物体组合实例，共 1,120 个提示，平均长度 9.2 词

评估协议（CoT 四维度）¶

Semantic Adherence: 主体/物体/动作三方面的语义忠实度
Object State Change: 准确性（物体是否达到正确目标状态）+ 一致性（状态转变是否平滑连贯）
Scene Alignment: 场景环境的匹配度
Perceptual Quality: 真实感 + 美学质量
CoT 评估策略三步走：① 标准重述（criteria grounding）→ ② 证据提取 → ③ 打分决策，引导 MLLM 进行结构化推理而非黑箱打分

评估模型¶

开源：Open-Sora-2.0、HunyuanVideo、HunyuanVideo-1.5、Wan-2.2
闭源：Kling-2.5-Turbo、Veo-3.1-Fast
自动评估器：GPT-5.2（主）、Qwen3-VL-30B、GPT-5-mini、ViCLIP

实验关键数据¶

Table 1: 人工评估结果（归一化至 0-1）

模型	主体	物体	动作	OSC准确性	OSC一致性	场景对齐	真实感	美学
Open-Sora-2.0	0.910	0.722	0.616	0.512	0.658	0.892	0.634	0.712
HunyuanVideo	0.898	0.764	0.562	0.466	0.730	0.948	0.752	0.782
HunyuanVideo-1.5	0.982	0.788	0.642	0.546	0.708	0.936	0.736	0.778
Wan-2.2	0.950	0.774	0.570	0.518	0.710	0.974	0.768	0.798
Kling-2.5-Turbo	0.990	0.792	0.742	0.652	0.692	0.972	0.772	0.802
Veo-3.1-Fast	0.976	0.834	0.802	0.740	0.702	0.978	0.782	0.802

Table 4: 不同场景类型下的 OSC 得分（人工评估，准确性+一致性均值）

模型	常规	新颖	组合
Open-Sora-2.0	0.410	0.389	0.416
HunyuanVideo	0.472	0.405	0.437
HunyuanVideo-1.5	0.572	0.559	0.556
Wan-2.2	0.635	0.531	0.594
Kling-2.5-Turbo	0.744	0.714	0.699
Veo-3.1-Fast	0.797	0.731	0.805

关键发现¶

语义对齐 vs OSC 的鸿沟：所有模型主体识别均超 0.89，但 OSC 准确性最高仅 0.740（Veo-3.1-Fast），最低 0.466（HunyuanVideo），差距巨大
新颖场景是最大瓶颈：所有模型在 novel 场景上得分最低，Veo-3.1-Fast 从常规 0.797 降至新颖 0.731，Open-Sora-2.0 降至 0.389，说明泛化能力严重不足
组合场景优于新颖场景：组合已知动作比推理未见组合更容易，但仍需保持中间状态连贯
动作类别差异大：rolling、heating 等视觉显著动作得分高，peeling、coating、pressing 等需要精细手-物交互的动作得分低
Human-MLLM 相关性：GPT-5.2 + CoT 与人工评估相关性最高，模型排名一致，但感知质量维度相关性较弱
典型失败模式：切苹果后苹果未变（前三个模型）、Wan-2.2 出现半切苹果回弹为完整状态、Kling-2.5-Turbo 刀碗交互不真实

亮点与局限¶

亮点：首个 OSC 专用 benchmark，填补了 T2V 评估中物体状态变化维度的空白
亮点：CoT 结构化评估比黑箱打分更可靠，GPT-5.2 + CoT 与人工排名完全一致
亮点：三种场景设计（常规/新颖/组合）全面测试模型的记忆、泛化与组合能力
局限：仅限烹饪域，未覆盖更广泛的状态变化（如燃烧、溶解、氧化等化学/物理过程）
局限：提示较短（均 9.2 词），未测试长文本复杂描述下的 OSC 表现

评分¶

新颖性: ⭐⭐⭐⭐ 首个 OSC 专用 benchmark，问题定义清晰
实验充分度: ⭐⭐⭐⭐ 6 模型 × 3 场景 × 4 维度，人工+自动双评估
价值: ⭐⭐⭐⭐ 揭示 T2V 物理推理的关键短板，指引未来方向