Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operations¶

一句话总结¶

提出AutoDW框架，通过逐步规划（每次生成一个API调用）+自适应回滚（参数级+API级两层回滚）实现复杂文档工作流自动化，在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率，分别超越最强基线40%和76%。

研究背景与动机¶

领域现状：LLM在代码生成、数据科学、网页任务上展现出自动化能力，但文档处理（Word编辑、格式转换等）的长链工作流自动化仍是挑战。现有文档Agent（如PPTC中GPT-4仅达6%会话完成率）表现不佳。
核心痛点：实际文档工作流涉及多步骤+相互依赖的指令（如"先设置表头→填充第二行→合并单元格"），现有Agent使用预定义计划一次性生成所有API，不随文档状态变化调整，单步出错即导致后续全部错误级联。
核心矛盾：自然语言指令的模糊性（用户说"添加表头"可能对应多种API）与文档操作的精确性（API参数必须精确匹配当前文档状态）之间的鸿沟。
切入角度：将工作流分解为逐步执行+每步验证的原子操作模式，配合双层回滚机制实现错误自动纠正，避免错误级联。

方法详解¶

整体框架¶

AutoDW包含三个核心模块：(1) 逐步规划——每次生成一个子指令和对应的API调用；(2) API执行与状态追踪——在Python运行时执行API并提取文档状态；(3) 自适应回滚——验证执行结果是否对齐用户意图，不匹配时触发参数级或API级回滚。

关键设计¶

逐步规划（Stepwise Planning）
两阶段生成：先将用户指令分解为原子子指令（单API可完成），再生成具体API调用
子指令桥接自然语言与API功能的语义鸿沟，同时支持意图分类缩小API搜索空间
意图分类：微调178M BERT模型进行8类意图分类（内容创建/修改/表格/图像/图表/格式/文档结构/文档生命周期），测试准确率98%
保留top-3意图而非top-1，增强对模糊指令的鲁棒性
文档状态追踪（State Tracking）
将文档状态建模为7元组：文档信息、段落元素、表格元素、图像元素、页面布局、交互元素、文档样式
每个API执行后程序化提取完整文档状态，为后续验证提供精确的变化描述
状态解析失败被视为无效执行，触发API级回滚——防止基于错误状态继续规划
自适应回滚（Adaptive Rollback）
变化分析：比较执行前后的文档状态，检测结构/内容/格式/样式/表格/超链接六维变化
对齐验证：LLM验证器评估状态变化是否与子指令对齐，返回二元决策+置信度+解释
参数级回滚：使用相同API但更新参数（根据验证器的解释），保留API选择
API级回滚：完全重新选择API，当参数级回滚也失败时升级触发
默认单轮回滚（参数级→API级），实验证明超过一轮的边际收益递减
DWBench基准构建
250个多轮会话，1708条人工标注指令，74个API
每会话平均34.8个API调用（最少15个，最多75个），每指令平均5.1个API调用
操作正确性度量：LLM judge比较执行后文档状态与ground-truth状态的语义等价性

损失函数/训练策略¶

BERT意图分类器在3315条指令-意图对上微调，与DWBench无重叠
验证器的置信度阈值0.6通过敏感性分析确定——平衡假阴性和假阳性的最优点
回滚策略不需要额外训练——完全依赖LLM的推理能力

实验关键数据¶

主实验表格¶

方法	指令级准确率	会话级准确率	API数量	Token用量
Retrieval-only	13.84%	4.40%	4.82	29.6k
Reasoning-only	39.93%	25.20%	5.12	31.6k
Hybrid (PPTC)	64.46%	35.20%	5.30	36.5k
AutoDW	90.33%	62.00%	5.21	42.8k

消融实验表格（跨LLM鲁棒性）¶

LLM骨干	指令级准确率	会话级准确率	简单/中等/困难任务
Qwen-Plus	82.82%	53.60%	86.3/83.1/79.0
DeepSeek-v3	90.33%	62.00%	94.5/90.0/86.3
Gemini-2.5-Pro	最佳之一	最佳之一	高/高/高
GPT-4.1	最佳之一	最佳之一	高/高/高

关键发现¶

会话级完成率提升76%：从Hybrid的35.2%到AutoDW的62%，仅额外25.6% token开销
困难任务（>6 API）仅比整体低4.4%：说明AutoDW在长链复杂任务上表现稳定
跨LLM鲁棒性好：4种LLM骨干均表现良好，最差的Qwen-Plus也达82.8%指令级准确率
回滚的成本效益：单轮双层回滚是最优策略，多轮回滚边际收益递减
约60%的回滚发生在格式转换步骤：文档格式处理仍是LLM的薄弱环节

亮点与洞察¶

"逐步+回滚"范式的通用性：不仅适用于文档自动化，该范式可迁移到代码生成、数据管道等任何多步执行任务
7元组文档状态表示的完备性：精确的状态追踪是回滚机制的基础——没有精确的状态就无法精确的验证
178M BERT意图分类器的效率选择：用小模型做固定分类、大模型做灵活推理的分工策略值得借鉴

局限性 / 可改进方向¶

目前仅支持Word文档（.docx），Excel/PPT/PDF等格式未覆盖
74个API虽覆盖常见操作，但实际Office API远更复杂
LLM验证器的置信度标定依赖经验阈值，可探索自适应阈值
会话级62%的完成率虽大幅领先但仍有较大提升空间

评分¶

维度	评分	理由
新颖性	⭐⭐⭐⭐	逐步规划+双层回滚在文档Agent中是新颖且实用的设计
技术深度	⭐⭐⭐⭐	7元组状态追踪+6维变化分析+双层回滚，系统设计完整
实验完整度	⭐⭐⭐⭐⭐	250会话大规模基准+4种LLM+难度梯度+消融
实用价值	⭐⭐⭐⭐⭐	直接面向办公自动化的实际痛点，90%指令完成率接近可用