Predicting Implicit Arguments in Procedural Video Instructions¶
会议: ACL 2025
arXiv: 2505.21068
代码: GitHub
领域: LLM/NLP
关键词: 语义角色标注, 隐含论元预测, 过程性视频理解, 多模态LLM, 烹饪食谱
一句话总结¶
提出 Implicit-VidSRL 数据集与 iSRL-Qwen2-VL 模型,针对过程性视频指令中省略的隐含论元(食材成分)进行预测,通过 SRL 框架将多步指令分解为 {verb, what, where/with} 三元组,在银标数据上微调后在隐含论元 F1 上超越 GPT-4o 达 17%。
研究背景与动机¶
- 省略现象普遍:过程性文本(如烹饪指令)高度省略,后续步骤中大量论元需要从前文或视觉上下文推断,例如"加入调料"隐含了之前步骤中处理过的具体食材组合。
- 现有 SRL 基准不足:传统 SRL 数据集(PropBank、FrameNet)聚焦单句显式论元,很少标注跨句隐含信息;VidSitu 等视频 SRL 数据集只关注局部或短时间上下文的隐含信息。
- 多模态推理需求:烹饪场景中食材会经历视觉变化(切、混合、加热),单纯语言上下文不足以消歧,需要结合视频帧进行跨时间步的实体追踪。
- 现有多模态 LLM 表现不佳:GPT-4o 等模型在长时间上下文中追踪隐含实体的能力有限,尤其对食材状态变化和混合物组成的推理薄弱。
- 评估缺口:现有下一步预测任务仅使用 NLG 指标(BLEU/METEOR),无法评估模型对隐含信息的理解,缺乏基于语义框架的细粒度评估。
- 应用价值:准确预测隐含论元对个性化烹饪指导(如过敏原追踪)、人机协作中的实体追踪具有直接应用价值。
方法详解¶
整体框架¶
将多模态过程性视频理解建模为两阶段流程:(1) 构建 Implicit-VidSRL 数据集,为烹饪视频的每个步骤标注 {verb, what, where/with} 语义框架(含隐含论元);(2) 利用 GPT-4o 自动生成银标训练数据,在其上微调 Qwen2-VL 得到 iSRL-Qwen2-VL,同时预测语义框架和自然语言指令。
模块一:Implicit-VidSRL 数据集构建¶
- 数据来源:YouCook2 与 Tasty 数据集的验证/测试集,231 个烹饪视频,2545 个语义框架。
- 标注方案:将多动作指令分解为单谓词-论元结构 {verb, what, where/with},其中 what 表示动作对象,where/with 表示位置或伴随元素。重点标注省略的隐含食材论元。
- 三阶段标注:Stage 1 由语言学博士生手动识别隐含实体;Stage 2 用 GPT-4o-Mini + CoT + 5-shot 示例自动转为 SRL 标签;Stage 3 人工校正,确保隐含信息准确、工具被排除。
- 统计特征:平均每个 what 角色含 6.29 个隐含实体,where/with 含 5.21 个;where/with 有 54% 为空。
模块二:任务定义¶
- 隐含论元预测(Cloze Task):给定输入序列(文本/视频)和带掩码的语义框架(verb 已知,what 和 where/with 被遮蔽),模型需预测包含显式和隐含实体的完整论元集合。
- 下一步预测(Next Step Prediction):给定前 t 步的指令及其 SRL 标签,预测第 t+1 步的自然语言指令及对应语义框架(含隐含论元),生成 k 个候选。
模块三:iSRL-Qwen2-VL 模型¶
- 银标数据生成:在 Tasty 训练集上用 GPT-4o + CoT 提示自动生成 SRL 标注,包括(1)多步指令拆分为单谓词结构、(2)自动推断隐含实体。最终产出 ~2.5K 训练视频样本,格式化为 ~18K 下一步预测训练样本。
- 训练方式:对 Qwen2-7B-Instruct 和 Qwen2-VL-7B-Instruct 进行 LoRA 微调(4×A100-80GB,≤48 GPU 小时),同时预测下一步文本和 SRL 框架。
训练与推理¶
- 使用 LLama-factory 框架的默认 LoRA 配置进行微调。
- 评估采用基于集合的 F1(精确匹配+IoU 词重叠),对隐含论元单独计算 F1。下一步预测额外使用 verb recall@5、BLEU4、METEOR。
- 视频输入限制为每视频最多 320 帧。
实验¶
表1:隐含论元预测(Cloze Task)¶
| 模型 | 参数量 | 输入 | 微调 | F1_what | F1_where | F1_what(隐含) | F1_where(隐含) |
|---|---|---|---|---|---|---|---|
| GPT-4o | - | V+T | ✗ | 64.83 | 55.32 | 50.53 | 49.01 |
| Qwen2-VL 7B | V+T | ✗ | ✗ | 42.07 | 22.54 | 22.68 | 21.96 |
| iSRL-Qwen2-VL 7B | 7B | V+T | ✓ | 64.86 | 54.54 | 59.15 | 56.21 |
| LLama-3.1 | 70B | T | ✗ | 63.04 | 55.50 | 50.46 | 53.42 |
| iSRL-Qwen2 7B | 7B | T | ✓ | 57.82 | 49.33 | 51.70 | 47.74 |
表2:下一步预测¶
| 模型 | 参数量 | 输入 | 微调 | R_verb@5 | F1_what | F1_where | METEOR |
|---|---|---|---|---|---|---|---|
| GPT-4o | - | V+T | ✗ | 53.36 | 20.51 | 16.32 | 18.99 |
| iSRL-Qwen2-VL 7B | 7B | V+T | ✓ | 47.76 | 19.74 | 17.44 | 19.38 |
| iSRL-Qwen2 7B | 7B | T | ✓ | 50.01 | 20.29 | 15.99 | 20.54 |
| Qwen2 72B | 72B | T | ✗ | 47.84 | 17.59 | 13.44 | 20.22 |
关键发现¶
- iSRL-Qwen2-VL (7B) 在多模态输入下超越 GPT-4o:隐含论元 F1_what 达 59.15(GPT-4o 为 50.53),相对提升 17%;F1_where 达 56.21(GPT-4o 为 49.01),相对提升 14.7%。
- 视频输入显著弱于文本输入:所有模型在 video-only 下性能大幅下降,说明从视频直接识别和追踪食材实体仍然困难。
- 多模态融合优于单模态:V+T 输入一致优于 V 或 T 单独输入,视觉信息帮助消歧局部实体。
- CoT 提示对 where/with 角色提升显著:Qwen2-VL 的 F1_where 从 8.60 提升至 15.15,无 CoT 时模型倾向于预测厨具而非食材。
- SRL 作为中间表示提升下一步预测:加入 SRL 预测的微调模型在 METEOR 上提升约 2%,证明语义框架有助于结构化推理。
- 序列越长越难:随语义框架位置增加,隐含实体数量增多,模型性能下降,但 iSRL-Qwen2-VL 在后期位置的鲁棒性优于 GPT-4o。
亮点¶
- 问题定义精准:将过程性文本中普遍存在的省略现象形式化为 SRL 隐含论元预测任务,既有语言学基础又有实际应用动机。
- 标注方案务实:三阶段(人工识别→GPT 自动转换→人工校正)平衡了标注质量与效率,银标数据策略巧妙利用 GPT-4o 能力降低训练成本。
- 小模型超大模型:7B 微调模型在核心指标上超越 GPT-4o 和 72B 开源模型,说明任务特定的数据和训练策略比模型规模更重要。
- 评估体系完善:引入基于集合 F1 的 SRL 评估指标,弥补了 NLG 指标无法衡量隐含信息理解的不足。
局限¶
- 领域受限:仅在烹饪食谱上验证,{verb, what, where/with} 的简单分解能否推广到其他过程性领域(如组装、实验操作)尚不清楚。
- 银标数据质量依赖 GPT-4o:自动标注可能引入偏差,且论文未报告银标数据与金标的一致性量化。
- 视觉能力仍弱:video-only 性能远低于 text-only,说明模型实际上主要从文本上下文获益,视觉理解的提升空间仍然很大。
- 仅关注食材论元:未考虑工具、温度、时间等其他可能隐含的论元类型,限制了任务的完整性。
- 数据规模有限:231 个视频、2545 个 SRL 框架的测试集规模较小,统计显著性可能不足。
相关工作¶
- 语义角色标注:PropBank、FrameNet 等传统 SRL 聚焦单句显式论元;Gerber & Chai (2010) 扩展 NomBank 加入跨句隐含论元但限于 10 个名词谓词;VidSitu (Sadhu et al., 2021) 做视频 SRL 但只覆盖短时间局部上下文。
- 过程性理解:PizzaCommonSense (Diallo et al., 2024) 标注中间步骤输出但只关注显式实体且限于披萨;GEPSAN (Abdelsalam et al., 2023) 做下一步预测但缺乏隐含论元评估。
- 时序推理基准:SEED-Bench、TempCompass 关注动作顺序和短片段属性,SOKBench 构建知识图谱但指令不完整。
- 多模态 LLM:GPT-4o、Qwen2-VL、LLava-OneVision 等提供了强基线,但本文发现它们在长时间上下文隐含实体追踪上均表现不佳。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将隐含论元从传统语言学引入多模态过程性视频,问题定义新颖且有深度
- 有效性: ⭐⭐⭐⭐ — 7B 模型超越 GPT-4o 和 72B 模型,消融实验充分验证了各设计选择
- 实用性: ⭐⭐⭐ — 数据集和代码公开,但领域受限于烹饪,实际下游应用场景待拓展
- 推荐度: ⭐⭐⭐⭐ — 问题有价值、方法简洁有效、实验全面,是多模态过程理解的优秀工作