Predicting Implicit Arguments in Procedural Video Instructions¶

会议: ACL 2025
arXiv: 2505.21068
代码: GitHub
领域: LLM/NLP
关键词: 语义角色标注, 隐含论元预测, 过程性视频理解, 多模态LLM, 烹饪食谱

一句话总结¶

提出 Implicit-VidSRL 数据集与 iSRL-Qwen2-VL 模型，针对过程性视频指令中省略的隐含论元（食材成分）进行预测，通过 SRL 框架将多步指令分解为 {verb, what, where/with} 三元组，在银标数据上微调后在隐含论元 F1 上超越 GPT-4o 达 17%。

研究背景与动机¶

省略现象普遍：过程性文本（如烹饪指令）高度省略，后续步骤中大量论元需要从前文或视觉上下文推断，例如"加入调料"隐含了之前步骤中处理过的具体食材组合。
现有 SRL 基准不足：传统 SRL 数据集（PropBank、FrameNet）聚焦单句显式论元，很少标注跨句隐含信息；VidSitu 等视频 SRL 数据集只关注局部或短时间上下文的隐含信息。
多模态推理需求：烹饪场景中食材会经历视觉变化（切、混合、加热），单纯语言上下文不足以消歧，需要结合视频帧进行跨时间步的实体追踪。
现有多模态 LLM 表现不佳：GPT-4o 等模型在长时间上下文中追踪隐含实体的能力有限，尤其对食材状态变化和混合物组成的推理薄弱。
评估缺口：现有下一步预测任务仅使用 NLG 指标（BLEU/METEOR），无法评估模型对隐含信息的理解，缺乏基于语义框架的细粒度评估。
应用价值：准确预测隐含论元对个性化烹饪指导（如过敏原追踪）、人机协作中的实体追踪具有直接应用价值。

方法详解¶

整体框架¶

将多模态过程性视频理解建模为两阶段流程：(1) 构建 Implicit-VidSRL 数据集，为烹饪视频的每个步骤标注 {verb, what, where/with} 语义框架（含隐含论元）；(2) 利用 GPT-4o 自动生成银标训练数据，在其上微调 Qwen2-VL 得到 iSRL-Qwen2-VL，同时预测语义框架和自然语言指令。

模块一：Implicit-VidSRL 数据集构建¶

数据来源：YouCook2 与 Tasty 数据集的验证/测试集，231 个烹饪视频，2545 个语义框架。
标注方案：将多动作指令分解为单谓词-论元结构 {verb, what, where/with}，其中 what 表示动作对象，where/with 表示位置或伴随元素。重点标注省略的隐含食材论元。
三阶段标注：Stage 1 由语言学博士生手动识别隐含实体；Stage 2 用 GPT-4o-Mini + CoT + 5-shot 示例自动转为 SRL 标签；Stage 3 人工校正，确保隐含信息准确、工具被排除。
统计特征：平均每个 what 角色含 6.29 个隐含实体，where/with 含 5.21 个；where/with 有 54% 为空。

模块二：任务定义¶

隐含论元预测（Cloze Task）：给定输入序列（文本/视频）和带掩码的语义框架（verb 已知，what 和 where/with 被遮蔽），模型需预测包含显式和隐含实体的完整论元集合。
下一步预测（Next Step Prediction）：给定前 t 步的指令及其 SRL 标签，预测第 t+1 步的自然语言指令及对应语义框架（含隐含论元），生成 k 个候选。

模块三：iSRL-Qwen2-VL 模型¶

银标数据生成：在 Tasty 训练集上用 GPT-4o + CoT 提示自动生成 SRL 标注，包括(1)多步指令拆分为单谓词结构、(2)自动推断隐含实体。最终产出 ~2.5K 训练视频样本，格式化为 ~18K 下一步预测训练样本。
训练方式：对 Qwen2-7B-Instruct 和 Qwen2-VL-7B-Instruct 进行 LoRA 微调（4×A100-80GB，≤48 GPU 小时），同时预测下一步文本和 SRL 框架。

训练与推理¶

使用 LLama-factory 框架的默认 LoRA 配置进行微调。
评估采用基于集合的 F1（精确匹配+IoU 词重叠），对隐含论元单独计算 F1。下一步预测额外使用 verb recall@5、BLEU4、METEOR。
视频输入限制为每视频最多 320 帧。

实验¶

表1：隐含论元预测（Cloze Task）¶

模型	参数量	输入	微调	F1_what	F1_where	F1_what(隐含)	F1_where(隐含)
GPT-4o	-	V+T	✗	64.83	55.32	50.53	49.01
Qwen2-VL 7B	V+T	✗	✗	42.07	22.54	22.68	21.96
iSRL-Qwen2-VL 7B	7B	V+T	✓	64.86	54.54	59.15	56.21
LLama-3.1	70B	T	✗	63.04	55.50	50.46	53.42
iSRL-Qwen2 7B	7B	T	✓	57.82	49.33	51.70	47.74

表2：下一步预测¶

模型	参数量	输入	微调	R_verb@5	F1_what	F1_where	METEOR
GPT-4o	-	V+T	✗	53.36	20.51	16.32	18.99
iSRL-Qwen2-VL 7B	7B	V+T	✓	47.76	19.74	17.44	19.38
iSRL-Qwen2 7B	7B	T	✓	50.01	20.29	15.99	20.54
Qwen2 72B	72B	T	✗	47.84	17.59	13.44	20.22

关键发现¶

iSRL-Qwen2-VL (7B) 在多模态输入下超越 GPT-4o：隐含论元 F1_what 达 59.15（GPT-4o 为 50.53），相对提升 17%；F1_where 达 56.21（GPT-4o 为 49.01），相对提升 14.7%。
视频输入显著弱于文本输入：所有模型在 video-only 下性能大幅下降，说明从视频直接识别和追踪食材实体仍然困难。
多模态融合优于单模态：V+T 输入一致优于 V 或 T 单独输入，视觉信息帮助消歧局部实体。
CoT 提示对 where/with 角色提升显著：Qwen2-VL 的 F1_where 从 8.60 提升至 15.15，无 CoT 时模型倾向于预测厨具而非食材。
SRL 作为中间表示提升下一步预测：加入 SRL 预测的微调模型在 METEOR 上提升约 2%，证明语义框架有助于结构化推理。
序列越长越难：随语义框架位置增加，隐含实体数量增多，模型性能下降，但 iSRL-Qwen2-VL 在后期位置的鲁棒性优于 GPT-4o。

亮点¶

问题定义精准：将过程性文本中普遍存在的省略现象形式化为 SRL 隐含论元预测任务，既有语言学基础又有实际应用动机。
标注方案务实：三阶段（人工识别→GPT 自动转换→人工校正）平衡了标注质量与效率，银标数据策略巧妙利用 GPT-4o 能力降低训练成本。
小模型超大模型：7B 微调模型在核心指标上超越 GPT-4o 和 72B 开源模型，说明任务特定的数据和训练策略比模型规模更重要。
评估体系完善：引入基于集合 F1 的 SRL 评估指标，弥补了 NLG 指标无法衡量隐含信息理解的不足。

局限¶

领域受限：仅在烹饪食谱上验证，{verb, what, where/with} 的简单分解能否推广到其他过程性领域（如组装、实验操作）尚不清楚。
银标数据质量依赖 GPT-4o：自动标注可能引入偏差，且论文未报告银标数据与金标的一致性量化。
视觉能力仍弱：video-only 性能远低于 text-only，说明模型实际上主要从文本上下文获益，视觉理解的提升空间仍然很大。
仅关注食材论元：未考虑工具、温度、时间等其他可能隐含的论元类型，限制了任务的完整性。
数据规模有限：231 个视频、2545 个 SRL 框架的测试集规模较小，统计显著性可能不足。

评分¶

新颖性: ⭐⭐⭐⭐ — 将隐含论元从传统语言学引入多模态过程性视频，问题定义新颖且有深度
有效性: ⭐⭐⭐⭐ — 7B 模型超越 GPT-4o 和 72B 模型，消融实验充分验证了各设计选择
实用性: ⭐⭐⭐ — 数据集和代码公开，但领域受限于烹饪，实际下游应用场景待拓展
推荐度: ⭐⭐⭐⭐ — 问题有价值、方法简洁有效、实验全面，是多模态过程理解的优秀工作