跳转至

Predicting Implicit Arguments in Procedural Video Instructions

会议: ACL 2025
arXiv: 2505.21068
代码: GitHub
领域: LLM/NLP
关键词: 语义角色标注, 隐含论元预测, 过程性视频理解, 多模态LLM, 烹饪食谱

一句话总结

提出 Implicit-VidSRL 数据集与 iSRL-Qwen2-VL 模型,针对过程性视频指令中省略的隐含论元(食材成分)进行预测,通过 SRL 框架将多步指令分解为 {verb, what, where/with} 三元组,在银标数据上微调后在隐含论元 F1 上超越 GPT-4o 达 17%。

研究背景与动机

  1. 省略现象普遍:过程性文本(如烹饪指令)高度省略,后续步骤中大量论元需要从前文或视觉上下文推断,例如"加入调料"隐含了之前步骤中处理过的具体食材组合。
  2. 现有 SRL 基准不足:传统 SRL 数据集(PropBank、FrameNet)聚焦单句显式论元,很少标注跨句隐含信息;VidSitu 等视频 SRL 数据集只关注局部或短时间上下文的隐含信息。
  3. 多模态推理需求:烹饪场景中食材会经历视觉变化(切、混合、加热),单纯语言上下文不足以消歧,需要结合视频帧进行跨时间步的实体追踪。
  4. 现有多模态 LLM 表现不佳:GPT-4o 等模型在长时间上下文中追踪隐含实体的能力有限,尤其对食材状态变化和混合物组成的推理薄弱。
  5. 评估缺口:现有下一步预测任务仅使用 NLG 指标(BLEU/METEOR),无法评估模型对隐含信息的理解,缺乏基于语义框架的细粒度评估。
  6. 应用价值:准确预测隐含论元对个性化烹饪指导(如过敏原追踪)、人机协作中的实体追踪具有直接应用价值。

方法详解

整体框架

将多模态过程性视频理解建模为两阶段流程:(1) 构建 Implicit-VidSRL 数据集,为烹饪视频的每个步骤标注 {verb, what, where/with} 语义框架(含隐含论元);(2) 利用 GPT-4o 自动生成银标训练数据,在其上微调 Qwen2-VL 得到 iSRL-Qwen2-VL,同时预测语义框架和自然语言指令。

模块一:Implicit-VidSRL 数据集构建

  • 数据来源:YouCook2 与 Tasty 数据集的验证/测试集,231 个烹饪视频,2545 个语义框架。
  • 标注方案:将多动作指令分解为单谓词-论元结构 {verb, what, where/with},其中 what 表示动作对象,where/with 表示位置或伴随元素。重点标注省略的隐含食材论元。
  • 三阶段标注:Stage 1 由语言学博士生手动识别隐含实体;Stage 2 用 GPT-4o-Mini + CoT + 5-shot 示例自动转为 SRL 标签;Stage 3 人工校正,确保隐含信息准确、工具被排除。
  • 统计特征:平均每个 what 角色含 6.29 个隐含实体,where/with 含 5.21 个;where/with 有 54% 为空。

模块二:任务定义

  • 隐含论元预测(Cloze Task):给定输入序列(文本/视频)和带掩码的语义框架(verb 已知,what 和 where/with 被遮蔽),模型需预测包含显式和隐含实体的完整论元集合。
  • 下一步预测(Next Step Prediction):给定前 t 步的指令及其 SRL 标签,预测第 t+1 步的自然语言指令及对应语义框架(含隐含论元),生成 k 个候选。

模块三:iSRL-Qwen2-VL 模型

  • 银标数据生成:在 Tasty 训练集上用 GPT-4o + CoT 提示自动生成 SRL 标注,包括(1)多步指令拆分为单谓词结构、(2)自动推断隐含实体。最终产出 ~2.5K 训练视频样本,格式化为 ~18K 下一步预测训练样本。
  • 训练方式:对 Qwen2-7B-Instruct 和 Qwen2-VL-7B-Instruct 进行 LoRA 微调(4×A100-80GB,≤48 GPU 小时),同时预测下一步文本和 SRL 框架。

训练与推理

  • 使用 LLama-factory 框架的默认 LoRA 配置进行微调。
  • 评估采用基于集合的 F1(精确匹配+IoU 词重叠),对隐含论元单独计算 F1。下一步预测额外使用 verb recall@5、BLEU4、METEOR。
  • 视频输入限制为每视频最多 320 帧。

实验

表1:隐含论元预测(Cloze Task)

模型 参数量 输入 微调 F1_what F1_where F1_what(隐含) F1_where(隐含)
GPT-4o - V+T 64.83 55.32 50.53 49.01
Qwen2-VL 7B V+T 42.07 22.54 22.68 21.96
iSRL-Qwen2-VL 7B 7B V+T 64.86 54.54 59.15 56.21
LLama-3.1 70B T 63.04 55.50 50.46 53.42
iSRL-Qwen2 7B 7B T 57.82 49.33 51.70 47.74

表2:下一步预测

模型 参数量 输入 微调 R_verb@5 F1_what F1_where METEOR
GPT-4o - V+T 53.36 20.51 16.32 18.99
iSRL-Qwen2-VL 7B 7B V+T 47.76 19.74 17.44 19.38
iSRL-Qwen2 7B 7B T 50.01 20.29 15.99 20.54
Qwen2 72B 72B T 47.84 17.59 13.44 20.22

关键发现

  1. iSRL-Qwen2-VL (7B) 在多模态输入下超越 GPT-4o:隐含论元 F1_what 达 59.15(GPT-4o 为 50.53),相对提升 17%;F1_where 达 56.21(GPT-4o 为 49.01),相对提升 14.7%。
  2. 视频输入显著弱于文本输入:所有模型在 video-only 下性能大幅下降,说明从视频直接识别和追踪食材实体仍然困难。
  3. 多模态融合优于单模态:V+T 输入一致优于 V 或 T 单独输入,视觉信息帮助消歧局部实体。
  4. CoT 提示对 where/with 角色提升显著:Qwen2-VL 的 F1_where 从 8.60 提升至 15.15,无 CoT 时模型倾向于预测厨具而非食材。
  5. SRL 作为中间表示提升下一步预测:加入 SRL 预测的微调模型在 METEOR 上提升约 2%,证明语义框架有助于结构化推理。
  6. 序列越长越难:随语义框架位置增加,隐含实体数量增多,模型性能下降,但 iSRL-Qwen2-VL 在后期位置的鲁棒性优于 GPT-4o。

亮点

  • 问题定义精准:将过程性文本中普遍存在的省略现象形式化为 SRL 隐含论元预测任务,既有语言学基础又有实际应用动机。
  • 标注方案务实:三阶段(人工识别→GPT 自动转换→人工校正)平衡了标注质量与效率,银标数据策略巧妙利用 GPT-4o 能力降低训练成本。
  • 小模型超大模型:7B 微调模型在核心指标上超越 GPT-4o 和 72B 开源模型,说明任务特定的数据和训练策略比模型规模更重要。
  • 评估体系完善:引入基于集合 F1 的 SRL 评估指标,弥补了 NLG 指标无法衡量隐含信息理解的不足。

局限

  • 领域受限:仅在烹饪食谱上验证,{verb, what, where/with} 的简单分解能否推广到其他过程性领域(如组装、实验操作)尚不清楚。
  • 银标数据质量依赖 GPT-4o:自动标注可能引入偏差,且论文未报告银标数据与金标的一致性量化。
  • 视觉能力仍弱:video-only 性能远低于 text-only,说明模型实际上主要从文本上下文获益,视觉理解的提升空间仍然很大。
  • 仅关注食材论元:未考虑工具、温度、时间等其他可能隐含的论元类型,限制了任务的完整性。
  • 数据规模有限:231 个视频、2545 个 SRL 框架的测试集规模较小,统计显著性可能不足。

相关工作

  • 语义角色标注:PropBank、FrameNet 等传统 SRL 聚焦单句显式论元;Gerber & Chai (2010) 扩展 NomBank 加入跨句隐含论元但限于 10 个名词谓词;VidSitu (Sadhu et al., 2021) 做视频 SRL 但只覆盖短时间局部上下文。
  • 过程性理解:PizzaCommonSense (Diallo et al., 2024) 标注中间步骤输出但只关注显式实体且限于披萨;GEPSAN (Abdelsalam et al., 2023) 做下一步预测但缺乏隐含论元评估。
  • 时序推理基准:SEED-Bench、TempCompass 关注动作顺序和短片段属性,SOKBench 构建知识图谱但指令不完整。
  • 多模态 LLM:GPT-4o、Qwen2-VL、LLava-OneVision 等提供了强基线,但本文发现它们在长时间上下文隐含实体追踪上均表现不佳。

评分

  • 新颖性: ⭐⭐⭐⭐ — 将隐含论元从传统语言学引入多模态过程性视频,问题定义新颖且有深度
  • 有效性: ⭐⭐⭐⭐ — 7B 模型超越 GPT-4o 和 72B 模型,消融实验充分验证了各设计选择
  • 实用性: ⭐⭐⭐ — 数据集和代码公开,但领域受限于烹饪,实际下游应用场景待拓展
  • 推荐度: ⭐⭐⭐⭐ — 问题有价值、方法简洁有效、实验全面,是多模态过程理解的优秀工作