Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operations¶
一句话总结¶
提出AutoDW框架,通过逐步规划(每次生成一个API调用)+自适应回滚(参数级+API级两层回滚)实现复杂文档工作流自动化,在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率,分别超越最强基线40%和76%。
研究背景与动机¶
- 领域现状:LLM在代码生成、数据科学、网页任务上展现出自动化能力,但文档处理(Word编辑、格式转换等)的长链工作流自动化仍是挑战。现有文档Agent(如PPTC中GPT-4仅达6%会话完成率)表现不佳。
- 核心痛点:实际文档工作流涉及多步骤+相互依赖的指令(如"先设置表头→填充第二行→合并单元格"),现有Agent使用预定义计划一次性生成所有API,不随文档状态变化调整,单步出错即导致后续全部错误级联。
- 核心矛盾:自然语言指令的模糊性(用户说"添加表头"可能对应多种API)与文档操作的精确性(API参数必须精确匹配当前文档状态)之间的鸿沟。
- 切入角度:将工作流分解为逐步执行+每步验证的原子操作模式,配合双层回滚机制实现错误自动纠正,避免错误级联。
方法详解¶
整体框架¶
AutoDW包含三个核心模块:(1) 逐步规划——每次生成一个子指令和对应的API调用;(2) API执行与状态追踪——在Python运行时执行API并提取文档状态;(3) 自适应回滚——验证执行结果是否对齐用户意图,不匹配时触发参数级或API级回滚。
关键设计¶
- 逐步规划(Stepwise Planning)
- 两阶段生成:先将用户指令分解为原子子指令(单API可完成),再生成具体API调用
- 子指令桥接自然语言与API功能的语义鸿沟,同时支持意图分类缩小API搜索空间
- 意图分类:微调178M BERT模型进行8类意图分类(内容创建/修改/表格/图像/图表/格式/文档结构/文档生命周期),测试准确率98%
-
保留top-3意图而非top-1,增强对模糊指令的鲁棒性
-
文档状态追踪(State Tracking)
- 将文档状态建模为7元组:文档信息、段落元素、表格元素、图像元素、页面布局、交互元素、文档样式
- 每个API执行后程序化提取完整文档状态,为后续验证提供精确的变化描述
-
状态解析失败被视为无效执行,触发API级回滚——防止基于错误状态继续规划
-
自适应回滚(Adaptive Rollback)
- 变化分析:比较执行前后的文档状态,检测结构/内容/格式/样式/表格/超链接六维变化
- 对齐验证:LLM验证器评估状态变化是否与子指令对齐,返回二元决策+置信度+解释
- 参数级回滚:使用相同API但更新参数(根据验证器的解释),保留API选择
- API级回滚:完全重新选择API,当参数级回滚也失败时升级触发
-
默认单轮回滚(参数级→API级),实验证明超过一轮的边际收益递减
-
DWBench基准构建
- 250个多轮会话,1708条人工标注指令,74个API
- 每会话平均34.8个API调用(最少15个,最多75个),每指令平均5.1个API调用
- 操作正确性度量:LLM judge比较执行后文档状态与ground-truth状态的语义等价性
损失函数/训练策略¶
- BERT意图分类器在3315条指令-意图对上微调,与DWBench无重叠
- 验证器的置信度阈值0.6通过敏感性分析确定——平衡假阴性和假阳性的最优点
- 回滚策略不需要额外训练——完全依赖LLM的推理能力
实验关键数据¶
主实验表格¶
| 方法 | 指令级准确率 | 会话级准确率 | API数量 | Token用量 |
|---|---|---|---|---|
| Retrieval-only | 13.84% | 4.40% | 4.82 | 29.6k |
| Reasoning-only | 39.93% | 25.20% | 5.12 | 31.6k |
| Hybrid (PPTC) | 64.46% | 35.20% | 5.30 | 36.5k |
| AutoDW | 90.33% | 62.00% | 5.21 | 42.8k |
消融实验表格(跨LLM鲁棒性)¶
| LLM骨干 | 指令级准确率 | 会话级准确率 | 简单/中等/困难任务 |
|---|---|---|---|
| Qwen-Plus | 82.82% | 53.60% | 86.3/83.1/79.0 |
| DeepSeek-v3 | 90.33% | 62.00% | 94.5/90.0/86.3 |
| Gemini-2.5-Pro | 最佳之一 | 最佳之一 | 高/高/高 |
| GPT-4.1 | 最佳之一 | 最佳之一 | 高/高/高 |
关键发现¶
- 会话级完成率提升76%:从Hybrid的35.2%到AutoDW的62%,仅额外25.6% token开销
- 困难任务(>6 API)仅比整体低4.4%:说明AutoDW在长链复杂任务上表现稳定
- 跨LLM鲁棒性好:4种LLM骨干均表现良好,最差的Qwen-Plus也达82.8%指令级准确率
- 回滚的成本效益:单轮双层回滚是最优策略,多轮回滚边际收益递减
- 约60%的回滚发生在格式转换步骤:文档格式处理仍是LLM的薄弱环节
亮点与洞察¶
- "逐步+回滚"范式的通用性:不仅适用于文档自动化,该范式可迁移到代码生成、数据管道等任何多步执行任务
- 7元组文档状态表示的完备性:精确的状态追踪是回滚机制的基础——没有精确的状态就无法精确的验证
- 178M BERT意图分类器的效率选择:用小模型做固定分类、大模型做灵活推理的分工策略值得借鉴
局限性 / 可改进方向¶
- 目前仅支持Word文档(.docx),Excel/PPT/PDF等格式未覆盖
- 74个API虽覆盖常见操作,但实际Office API远更复杂
- LLM验证器的置信度标定依赖经验阈值,可探索自适应阈值
- 会话级62%的完成率虽大幅领先但仍有较大提升空间
相关工作与启发¶
- vs. PPTC(PPT自动化基线):PPTC使用预定义计划+规则映射器,无错误恢复能力;AutoDW的逐步规划+自适应回滚实现了在不同文复杂度上的稳健表现
- vs. DocPilot/TableTalk(人类在环):这些系统依赖人工验证每步结果,AutoDW用LLM验证器替代人工,实现全自动化
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 逐步规划+双层回滚在文档Agent中是新颖且实用的设计 |
| 技术深度 | ⭐⭐⭐⭐ | 7元组状态追踪+6维变化分析+双层回滚,系统设计完整 |
| 实验完整度 | ⭐⭐⭐⭐⭐ | 250会话大规模基准+4种LLM+难度梯度+消融 |
| 实用价值 | ⭐⭐⭐⭐⭐ | 直接面向办公自动化的实际痛点,90%指令完成率接近可用 |