Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions¶

会议: ACL 2026
arXiv: 2604.17894
代码: github
领域: Multimodal/VLM
关键词: 幻灯片自动更新, 动态模板, 自然语言指令, 多模态Agent, 数据驱动报告

一句话总结¶

定义了"基于自然语言指令在用户自定义模板上进行动态幻灯片更新"的新任务，构建了包含 20,036 个指令-执行三元组的 DynaSlide 基准，并提出了 SlideAgent 作为强参考基线。

领域现状：演示幻灯片是数据驱动报告的核心媒介，但维护复杂分析类幻灯片依然极度耗费人力。现有自动化方法主要采用固定模板填充范式，无法支持多样化的用户自定义幻灯片。

现有痛点：(1) 周期性业务报告中，更新通常只涉及局部数据替换和结论微调，但大量人力被消耗在低价值的"复制-粘贴-修改"流程上；(2) 现有方法局限于从结构化数据源向固定模板注入信息，无法处理用户自创的复杂幻灯片结构。

核心矛盾：用户自定义模板（BYO-template）场景要求系统理解任意幻灯片的多模态结构（标题、表格、图表、总结及其布局和依赖关系），同时将自然语言更新指令精准映射到可执行操作——这远超简单的值替换。

本文目标：正式定义动态幻灯片更新任务，构建大规模基准数据集，并提出 Agent 基线系统。

切入角度：以真实房地产业务分析数据为基础，构建可控模板族，生成大量指令-执行三元组，支持可复现评估。

核心 idea：将幻灯片更新建模为感知-推理-执行的闭环过程：先解析幻灯片的语义结构和数据逻辑，再根据自然语言指令更新数据查询、重新计算统计结果、重绘图表、改写总结，同时保持原始布局和样式。

SlideAgent 采用两阶段架构：阶段一（幻灯片理解）将输入幻灯片解析为结构化表示，捕获元素位置、数据源和功能逻辑；阶段二（指令驱动更新）解释用户指令、检索更新数据、执行转换、重新生成内容。

多模态幻灯片布局解析:
- 功能：识别幻灯片中各元素的语义角色和空间结构
- 核心思路：将幻灯片渲染为 PNG 图像，用 Qwen2.5-VL-72B 预测语义标签和边界框；同时用 python-pptx 解析精确坐标和样式元数据；通过 IoU 匹配（阈值 0.5）将 VLM 预测与 PPTX 形状对齐
- 设计动机：VLM 提供语义理解（区分标题/表格标题/总结等），python-pptx 提供精确几何和样式信息，两者互补
表格和图表逻辑提取（封闭域/开放域）:
- 功能：从幻灯片反向推理出底层数据查询和聚合逻辑
- 核心思路：封闭域——LLM 从预定义的 11 个统计函数库中识别对应函数和参数（函数调用范式）；开放域——设计通用 synthesize_analytical_table 接口，从表格结构类型、表头、约束规格、源字段和聚合操作五个原子组件重构逻辑
- 设计动机：封闭域覆盖已知模板，开放域处理用户自定义的任意分析，两种模式互补
指令驱动的内容同步流水线:
- 功能：根据自然语言指令执行端到端的幻灯片更新
- 核心思路：四步流水线——指令解析（将指令映射为参数状态更新）→ SQL 生成与数据检索 → 工具调用与数据重计算 → 事实感知的总结改写与最终渲染
- 设计动机：将复杂的更新过程分解为可独立评估的子模块，便于定位错误瓶颈

本文方法主要基于 LLM 推理而非训练。评估使用任务成功率（SR，生成幻灯片与 ground truth 在内容和布局上完全匹配的比例）和元素级准确率。