跳转至

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operations

一句话总结

提出AutoDW框架,通过逐步规划(每次生成一个API调用)+自适应回滚(参数级+API级两层回滚)实现复杂文档工作流自动化,在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率,分别超越最强基线40%和76%。

研究背景与动机

  • 领域现状:LLM在代码生成、数据科学、网页任务上展现出自动化能力,但文档处理(Word编辑、格式转换等)的长链工作流自动化仍是挑战。现有文档Agent(如PPTC中GPT-4仅达6%会话完成率)表现不佳。
  • 核心痛点:实际文档工作流涉及多步骤+相互依赖的指令(如"先设置表头→填充第二行→合并单元格"),现有Agent使用预定义计划一次性生成所有API,不随文档状态变化调整,单步出错即导致后续全部错误级联。
  • 核心矛盾:自然语言指令的模糊性(用户说"添加表头"可能对应多种API)与文档操作的精确性(API参数必须精确匹配当前文档状态)之间的鸿沟。
  • 切入角度:将工作流分解为逐步执行+每步验证的原子操作模式,配合双层回滚机制实现错误自动纠正,避免错误级联。

方法详解

整体框架

AutoDW包含三个核心模块:(1) 逐步规划——每次生成一个子指令和对应的API调用;(2) API执行与状态追踪——在Python运行时执行API并提取文档状态;(3) 自适应回滚——验证执行结果是否对齐用户意图,不匹配时触发参数级或API级回滚。

关键设计

  1. 逐步规划(Stepwise Planning)
  2. 两阶段生成:先将用户指令分解为原子子指令(单API可完成),再生成具体API调用
  3. 子指令桥接自然语言与API功能的语义鸿沟,同时支持意图分类缩小API搜索空间
  4. 意图分类:微调178M BERT模型进行8类意图分类(内容创建/修改/表格/图像/图表/格式/文档结构/文档生命周期),测试准确率98%
  5. 保留top-3意图而非top-1,增强对模糊指令的鲁棒性

  6. 文档状态追踪(State Tracking)

  7. 将文档状态建模为7元组:文档信息、段落元素、表格元素、图像元素、页面布局、交互元素、文档样式
  8. 每个API执行后程序化提取完整文档状态,为后续验证提供精确的变化描述
  9. 状态解析失败被视为无效执行,触发API级回滚——防止基于错误状态继续规划

  10. 自适应回滚(Adaptive Rollback)

  11. 变化分析:比较执行前后的文档状态,检测结构/内容/格式/样式/表格/超链接六维变化
  12. 对齐验证:LLM验证器评估状态变化是否与子指令对齐,返回二元决策+置信度+解释
  13. 参数级回滚:使用相同API但更新参数(根据验证器的解释),保留API选择
  14. API级回滚:完全重新选择API,当参数级回滚也失败时升级触发
  15. 默认单轮回滚(参数级→API级),实验证明超过一轮的边际收益递减

  16. DWBench基准构建

  17. 250个多轮会话,1708条人工标注指令,74个API
  18. 每会话平均34.8个API调用(最少15个,最多75个),每指令平均5.1个API调用
  19. 操作正确性度量:LLM judge比较执行后文档状态与ground-truth状态的语义等价性

损失函数/训练策略

  • BERT意图分类器在3315条指令-意图对上微调,与DWBench无重叠
  • 验证器的置信度阈值0.6通过敏感性分析确定——平衡假阴性和假阳性的最优点
  • 回滚策略不需要额外训练——完全依赖LLM的推理能力

实验关键数据

主实验表格

方法 指令级准确率 会话级准确率 API数量 Token用量
Retrieval-only 13.84% 4.40% 4.82 29.6k
Reasoning-only 39.93% 25.20% 5.12 31.6k
Hybrid (PPTC) 64.46% 35.20% 5.30 36.5k
AutoDW 90.33% 62.00% 5.21 42.8k

消融实验表格(跨LLM鲁棒性)

LLM骨干 指令级准确率 会话级准确率 简单/中等/困难任务
Qwen-Plus 82.82% 53.60% 86.3/83.1/79.0
DeepSeek-v3 90.33% 62.00% 94.5/90.0/86.3
Gemini-2.5-Pro 最佳之一 最佳之一 高/高/高
GPT-4.1 最佳之一 最佳之一 高/高/高

关键发现

  • 会话级完成率提升76%:从Hybrid的35.2%到AutoDW的62%,仅额外25.6% token开销
  • 困难任务(>6 API)仅比整体低4.4%:说明AutoDW在长链复杂任务上表现稳定
  • 跨LLM鲁棒性好:4种LLM骨干均表现良好,最差的Qwen-Plus也达82.8%指令级准确率
  • 回滚的成本效益:单轮双层回滚是最优策略,多轮回滚边际收益递减
  • 约60%的回滚发生在格式转换步骤:文档格式处理仍是LLM的薄弱环节

亮点与洞察

  • "逐步+回滚"范式的通用性:不仅适用于文档自动化,该范式可迁移到代码生成、数据管道等任何多步执行任务
  • 7元组文档状态表示的完备性:精确的状态追踪是回滚机制的基础——没有精确的状态就无法精确的验证
  • 178M BERT意图分类器的效率选择:用小模型做固定分类、大模型做灵活推理的分工策略值得借鉴

局限性 / 可改进方向

  • 目前仅支持Word文档(.docx),Excel/PPT/PDF等格式未覆盖
  • 74个API虽覆盖常见操作,但实际Office API远更复杂
  • LLM验证器的置信度标定依赖经验阈值,可探索自适应阈值
  • 会话级62%的完成率虽大幅领先但仍有较大提升空间

相关工作与启发

  • vs. PPTC(PPT自动化基线):PPTC使用预定义计划+规则映射器,无错误恢复能力;AutoDW的逐步规划+自适应回滚实现了在不同文复杂度上的稳健表现
  • vs. DocPilot/TableTalk(人类在环):这些系统依赖人工验证每步结果,AutoDW用LLM验证器替代人工,实现全自动化

评分

维度 评分 理由
新颖性 ⭐⭐⭐⭐ 逐步规划+双层回滚在文档Agent中是新颖且实用的设计
技术深度 ⭐⭐⭐⭐ 7元组状态追踪+6维变化分析+双层回滚,系统设计完整
实验完整度 ⭐⭐⭐⭐⭐ 250会话大规模基准+4种LLM+难度梯度+消融
实用价值 ⭐⭐⭐⭐⭐ 直接面向办公自动化的实际痛点,90%指令完成率接近可用