Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review¶
会议: ACL 2026
arXiv: 2602.11173
代码: https://github.com/UKPLab/acl2026-respgen-respeval
领域: 对话/科学文档处理
关键词: 作者回复生成, 同行评审, 人在回路, 可控文本生成, 评估框架
一句话总结¶
本文将学术论文作者回复(rebuttal)生成重新定义为"作者在回路"任务,提出 Re3Align 数据集(3.4K 论文、440K 句级编辑标注、15K 审稿-回复-修改三元组)、REspGen 可控生成框架和 REspEval 20+ 指标评估套件,在 5 个 SOTA LLM 上系统验证了作者输入、可控性和评估引导精修的效果。
研究背景与动机¶
领域现状:作者回复(rebuttal)写作是学术同行评审中的关键环节,需要大量作者精力。NLP 辅助自动生成作者回复(ARG)是新兴但未充分探索的研究方向。
现有痛点:(1) 现有 ARG 工作仅使用审稿意见作为输入,忽略了作者的领域专业知识、独有信息和回复策略——但实际中许多审稿关切只有作者才能回答(如具体实验设计、澄清定义等);(2) 缺乏提供细粒度作者信号的数据集——现有数据集无句级编辑标注、无审稿-回复段落对齐、无修改映射;(3) 评估仅限于表面相似度指标(ROUGE/BLEU),缺乏对可控性、输入利用率、回复质量和话语结构的多维评估。
核心矛盾:作者回复写作本质上需要整合作者专属信号(修改计划、领域知识、回复策略),但现有 NLP 方法将其视为通用的"审稿→回复"文本生成问题,产出的回复缺乏具体细节和作者独有信息。
本文目标:(1) 形式化定义"作者在回路"ARG 范式;(2) 构建支撑该范式的大规模三元组数据集;(3) 提供支持灵活作者输入和多属性控制的生成框架;(4) 建立 20+ 指标的全面评估体系。
切入角度:利用论文修改版本作为作者信号的代理——会议场景中回复描述计划的修改,修改版论文中的实际编辑可回溯代理作者的意图和专业知识。
核心 idea:将论文修改中的句级编辑作为作者专属信息的代理,构建审稿意见-作者回复-论文编辑三元组对齐数据集,使 ARG 模型可以利用作者的真实修改意图来生成高质量回复。
方法详解¶
整体框架¶
三大组件协同工作:(1) Re3Align 数据集通过引用匹配、SOTA 修改分析模型和双向对齐策略,从论文的审稿-回复-修改记录中提取句级三元组;(2) REspGen 以审稿意见为核心输入,可选接入作者编辑信号、论文上下文检索、回复计划和长度约束,支持评估引导的迭代精修;(3) REspEval 在话语、可控性、输入利用和回复质量四个维度提供 20+ 指标的全面评估。
关键设计¶
-
Re3Align 三元组数据集构建:
- 功能:提供首个包含审稿-回复-编辑对齐的大规模数据集,支撑"作者在回路"范式
- 核心思路:从 EMNLP24(679 篇)和 PeerJ(2,715 篇)收集完整论文记录。三步流程——(a) 通过引用匹配算法提取审稿-回复段落对(16,071 对,人工验证 98% 准确率);(b) 使用 SOTA 修改分析模型标注 439,798 个句级编辑(对齐 F1 > 90%,意图分类 84.3 F1);(c) 通过双向对齐策略(审稿→编辑 + 回复→编辑,使用微调 LLM 分类器 >90% 准确率)生成 15,521 个三元组
- 设计动机:活跃的作者信号采集在伦理和实践上不可行,利用论文修改版本作为事后代理是实用且可扩展的替代方案
-
REspGen 可控生成框架:
- 功能:支持灵活的作者输入配置和多属性回复控制
- 核心思路:包含三层控制机制——(a) 回复计划控制:将审稿意见分为 Criticism/Question/Request 三类,每类关联 16 种回复动作标签(合作、防御、对冲、社交、其他 5 大立场类),作者可指定每个审稿条目的回复策略序列;(b) 长度约束:支持设定上界词数(实验中设为人类回复长度 + 50);(c) 输入配置:作者编辑可以"编辑字符串"(粗糙想法)或"编辑字符串 + 段落上下文 + 章节标题"(精细定位修改)两种粒度提供,额外支持基于检索-重排的 v1 论文段落检索
- 设计动机:实际写回复时作者需要控制语气、策略、长度等多个属性,但此前 ARG 工作完全缺乏可控性研究
-
REspEval 多维评估套件:
- 功能:提供 20+ 指标全面评估作者回复生成质量
- 核心思路:四大维度——(a) 话语分析:提取 5 类立场比例(%Coop, %Defe, %Hed, %Soc, %Other)和 ArgumentLoad 以及转换流;(b) 可控性:长度遵守率(%met + median diff)和计划保真度(P/R/F1 + 基于 LCS 的 Order Fidelity);(c) 输入利用:基于原子事实检验的生成事实精确度(GFP = 生成事实中被输入支持的比例)和输入覆盖召回率(ICR = 作者编辑事实在回复中出现的比例);(d) 回复质量:基于评审准则的 GPT-5 评审,评估针对性(Targ)、具体性(Spec)和说服力(Conv),5 分制打分
- 设计动机:ROUGE/BLEU 仅衡量表面相似度,无法捕捉回复是否真正回应审稿关切、是否整合了作者信息、是否遵守了计划约束。人工验证(12 位研究者、1,365 条判断)显示一致性评分 > 4.17/5,Krippendorff α = 0.81-0.89
损失函数 / 训练策略¶
REspGen 基于提示驱动的大语言模型,不涉及模型参数训练。通过精心设计的提示模板实现输入配置和属性控制。评估引导的迭代精修将 REspEval 返回的评估指标、理由和改进建议连同原始输入和初始草稿一起反馈给 REspGen,生成改进版回复。
实验关键数据¶
主实验¶
不同 LLM 和设置下的回复质量对比(选取 GPT-4o 和 DeepSeek)
| 设置 | GFP %sup | ICR %sup | Targ | Spec | Conv |
|---|---|---|---|---|---|
| Human baseline | .458 | .200 | .788 | .575 | .575 |
| GPT-4o noAIx(无作者输入) | .443 | .033 | .842 | .508 | .554 |
| GPT-4o wAIx(S) | .689 | .668 | .826 | .638 | .654 |
| GPT-4o wAIx(+v1) | .781 | .432 | .847 | .721 | .717 |
| GPT-4o +Refine(planC) | .695 | — | .938 | .771 | .742 |
| DeepSeek noAIx | .412 | .046 | .779 | .433 | .496 |
| DeepSeek wAIx(+v1) | .738 | .452 | .861 | .692 | .700 |
| DeepSeek +Refine(planC) | .734 | — | .913 | .746 | .742 |
消融实验¶
作者输入粒度对事实利用的递进影响(Phi-4 模型)
| 设置 | GFP %sup ↑ | GFP %unsup ↓ | GFP %con | ICR %sup ↑ |
|---|---|---|---|---|
| noAIx(无作者输入) | .362 | .542 | .096 | .300 |
| wAIx 编辑字符串 | .575 | .374 | .051 | .509 |
| +段落上下文 | .577 | .364 | .059 | .470 |
| +v1 检索 | .705 | .236 | .059 | .358 |
长度和计划控制的交互效果(Llama-3.3)
| 设置 | lenC %met | planC F1 | Targ | Conv |
|---|---|---|---|---|
| +lenC only | 1.00 | — | .771 | .638 |
| +lenC & planC | 1.00 | .619 | .850 | .638 |
| +planC only | — | .486 | .892 | .671 |
关键发现¶
- 作者输入显著提升事实精确度(GFP %sup 从 .36-.44 提升到 .58-.78),不支持事实比例大幅降低
- 评估引导精修有效提升针对性(Targ 从 .85 提升到 .94)和说服力,但可能降低事实精确度——揭示质量-事实性权衡
- 长度和计划控制的同时施加存在质量-可控性权衡——同时控制两个属性时质量略低于仅控制一个
- ICR 在加入更多上下文后反而下降,说明信息过载导致模型无法优先处理核心编辑内容
- 所有模型在无作者输入时生成大量无支撑事实(>50%),证实了"作者在回路"的必要性
亮点与洞察¶
- "作者在回路"范式的提出是对 ARG 任务的本质性重新定义——从通用生成变为人机协作
- 利用论文修改版本作为作者信号的代理是巧妙的方法论创新,规避了实时采集的伦理和实践障碍
- REspEval 中基于原子事实检验的 GFP/ICR 指标比 ROUGE 更有意义地衡量了回复对作者信息的利用
- Order Fidelity 指标基于 LCS 的设计既简洁又合理,可推广到其他序列控制评估场景
- Table 1 对比先前工作在数据/生成/评估三维的差距,清晰展示了贡献的系统性
局限与展望¶
- 代理信号(论文编辑)与实际作者意图之间存在固有差距——并非所有修改都对应审稿关切
- 仅在英语学术文本上验证,其他语言和领域未测试
- 评估引导精修可能导致过拟合 REspEval 指标而非真实质量提升
- 未来可探索交互式多轮精修、与实际作者的用户研究、以及更细粒度的作者控制接口
相关工作与启发¶
- vs Jiu-Jitsu (2023): 仅有段级对齐,无句级编辑标注,无作者输入,评估仅限 ROUGE/BERTScore
- vs ReviewMT (2024): 仅有文档级对齐,评估仅限 ROUGE/BLEU/METEOR
- vs Re2 (2025): 仅有文档级对齐和基本相似度+质量指标,无可控性研究
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统定义"作者在回路"ARG 范式,数据集、框架和评估三位一体
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个 LLM、9 种设置、20+ 指标、12 人人工验证,极为全面
- 写作质量: ⭐⭐⭐⭐ 结构完整、技术细节充分,但信息密度极高导致阅读门槛较高
- 价值: ⭐⭐⭐⭐⭐ 对学术写作 NLP 辅助具有重要推动作用,数据集和工具的实用价值高
相关论文¶
- [ACL 2026] Discourse Coherence and Response-Guided Context Rewriting for Multi-Party Dialogue Generation
- [ACL 2025] ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework
- [ICLR 2026] AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions
- [CVPR 2026] Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
- [ECCV 2024] BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation