XtraGPT: Context-Aware and Controllable Academic Paper Revision via Human-AI Collaboration¶

会议: ACL 2026
arXiv: 2505.11336
代码: GitHub
领域: NLP生成 / 学术写作辅助
关键词: 论文修改, 人机协作, 上下文感知, 可控生成, 学术写作

一句话总结¶

本文提出 XtraGPT——首个面向学术论文修改的开源 LLM 套件（1.5B-14B），通过在 7,000 篇顶会论文和 140,000 个标准引导的指令-修改对上微调，实现上下文感知的段落级可控修改，7B 版本匹配 GPT-4o-mini，14B 版本超越 GPT-4o-mini，人类评估显示修改后论文预测评分平均提升 0.65 分。

研究背景与动机¶

领域现状：LLM 在学术工作流中的应用日益广泛，但主要停留在通过 ChatGPT 等通用模型进行表面润色。现有的 AI 写作工具要么是从头生成整篇论文（引发原创性和伦理问题），要么仅做语法修正。

现有痛点：(1) 通用 LLM 对学术论文的修改往往流于表面——改善了流畅性但未解决核心论证问题（如动机不清、贡献模糊）；(2) 学术写作本质上是迭代的，但当前 LLM 工作流将每次提示视为独立交互，缺乏跨修改轮次的上下文追踪；(3) 现有系统缺乏三个关键可控性：遵循上下文示例、遵循用户指令、遵循显式写作标准。

核心矛盾：学术论文修改需要理解全文上下文和遵循领域特定的写作标准，但通用 LLM 既缺乏全文理解能力，也缺乏对学术写作规范的内化。

本文目标：构建一个人机协作的论文修改框架，模型作为"助手"提供上下文感知的定向修改，人类保留创意控制权。

切入角度：将修改任务建模为标准引导的条件生成——给定全文 \(T\)、目标段落 \(p\)、用户指令 \(q\)，生成修改后段落 \(\hat{p} = \text{Model}_\theta(p, q, T)\)。通过 20 条从顶会审稿指南中提炼的写作标准来规范化修改意图。

核心 idea：通过标准引导的意图对齐和上下文感知建模，将学术论文修改从"通用润色"提升为"精准的结构化改进"。

方法详解¶

整体框架¶

XtraGPT 的后训练框架包含三个核心组件：(1) 标准引导的意图对齐——20 条覆盖标题、摘要、引言、背景、实验、结论六个部分的写作标准；(2) 上下文感知建模——全文 \(T\) 作为显式输入；(3) 可控后训练（CPT）——在 ReviseQA 数据集上最大化 \(\log P_\theta(\hat{p} | q, T, p)\)。推理时遵循 HAC 协议：用户选择段落并发出指令，模型返回修改，用户审核整合。

关键设计¶

标准引导的意图对齐（Criteria-Guided Intent Alignment）:
- 功能：将模糊的用户指令映射为具体可执行的修改策略
- 核心思路：从 ICLR 审稿指南和专家经验中提炼 20 条段落级写作标准 \(C\)，覆盖六个核心部分（如"标题与内容的一致性"、"引言中动机的强度和清晰度"、"实验对主要创新的支撑"等）。训练数据中每个指令-修改对都显式关联一条标准 \(c \in C\)，使模型学习将特定类型的请求与对应的修改策略关联
- 设计动机：作者指令往往高层且模糊（如"加强贡献"），需要一套结构化标准作为"桥梁"将抽象意图转化为具体文本操作。这些标准来自权威写作指南，确保修改符合学术规范
上下文感知建模（Context-Aware Modeling）:
- 功能：确保段落修改与全文叙事一致
- 核心思路：将完整论文正文 \(T\)（去除致谢和参考文献，控制在 16,384 tokens 内）作为模型的显式输入。训练目标 \(\mathcal{L}_{CPT}(\theta) = -\mathbb{E}[\log P_\theta(\hat{p} | q, T, p)]\) 强制模型学习以全局叙事、结构和术语为条件的表示
- 设计动机：对"引言动机"的修改需要的考量与对"实验分析"的修改完全不同。缺少全文上下文的修改会导致段落与全文不协调——消融实验中去除上下文后结论部分 LC win rate 从 50% 骤降至 11.76%
ReviseQA 数据集构建:
- 功能：提供大规模、高质量的标准引导修改训练数据
- 核心思路：从 ICLR 2024 的 7,000 篇投稿中，对每篇论文的六个核心部分采样段落，按 20 条标准生成指令-修改对。使用 GPT-4o-mini 生成修改（幻觉率仅 1.7%），三位博士生进行人类质量验证。总计 140,000 个高质量指令-修改对，5% 作为测试集
- 设计动机：现有数据集要么聚焦语法修正，要么覆盖端到端生成，缺乏面向段落级结构化修改的大规模训练资源

损失函数 / 训练策略¶

标准条件语言模型损失 \(\mathcal{L}_{CPT}(\theta) = -\mathbb{E}[\log P_\theta(\hat{p} | q, T, p)]\)。全参数微调（优于 LoRA）。评估使用长度控制的胜率（Length-Controlled Win Rate），通过 alpaca_eval_gpt4_turbo_fn 自动评判，消除长度偏差。

实验关键数据¶

主实验¶

长度控制胜率（vs XtraGPT-7B 作为锚点）

模型	标题	摘要	引言	背景	实验	结论	总体
QwQ-32B	46.58	85.34	81.99	83.82	82.64	95.69	80.86
DeepSeek-v3-671B	56.42	65.71	68.32	74.12	72.11	64.83	67.70
XtraGPT-14B	55.29	59.43	50.90	59.43	57.87	52.11	55.49
GPT-4o-Mini	48.80	47.43	55.73	66.07	45.67	39.03	51.75
XtraGPT-7B (anchor)	—	—	—	—	—	—	50.00
Qwen2.5-7B-Instruct	39.93	45.14	45.64	39.28	33.87	31.17	40.80

消融实验¶

配置	总体 LC Win Rate	说明
XtraGPT-7B (完整 CPT)	50.00	锚点
w/o 写作标准	44.65	去掉标准引导
Qwen2.5-7B (基座)	40.80	无微调
w/o 上下文 \(T\)	34.71	去掉全文上下文

关键发现¶

XtraGPT-7B 超越所有同规模开源模型，且在摘要、实验、结论部分超越 GPT-4o-mini
上下文 \(T\) 是最关键组件：去除后结论部分 LC win rate 从 50% 骤降至 11.76%，整体降至 34.71%
标准引导贡献显著但次于上下文（44.65 vs 50.00），在引言和摘要等结构化部分尤为重要
AI-SCIENTIST 全文评估显示：修改后贡献分 +7.89%、表达分 +12.50%、严谨性 +6.41%，总评分从 6.08 升至 6.73（p<0.001）
人类评估中修改接受率为 3.23/5.0，指令遵循 3.78/5.0

亮点与洞察¶

HAC 协议的设计理念值得借鉴：人类负责创意和决策，AI 负责执行和改善，避免了全自动化带来的原创性和伦理风险
20 条写作标准的提炼本身就是一个有价值的资源——可以作为论文自查清单或审稿指南
使用 AI-SCIENTIST 作为论文质量评估器是巧妙的实验设计——将主观的"论文变好了吗"转化为可量化的预测评分变化

局限与展望¶

ReviseQA 仅来自 ICLR 2024，可能偏向 ML/AI 领域的写作风格，对其他学科（如 NLP、生物医学）的泛化性未知
GPT-4o-mini 生成的修改作为训练目标，可能引入该模型的偏好和风格偏差
当前仅支持单轮修改评估，多轮迭代修改的累积效果未被系统衡量
16K token 的上下文窗口限制了对超长论文的处理能力
未探索与人类修改历史（如 OpenReview 上的修改记录）对齐的可能性

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向学术论文修改的开源 LLM 套件，HAC 框架设计合理
实验充分度: ⭐⭐⭐⭐ LC win rate + 人类评估 + AI-SCIENTIST 全文评估 + 消融
写作质量: ⭐⭐⭐⭐ 框架描述清晰，与现有工作的定位区分明确
价值: ⭐⭐⭐⭐⭐ 解决研究者日常痛点，开源模型+数据集+Overleaf 插件，实用性极高